格致方法.定量研究系列吴晓刚主编 


应用回归导论 


[芡]边克尔 * s . 刘易斯一 ！ n 
(Michael S. Lewis-Beck) 

矜么林译 


革新研究理念 
丰富研究工具 

最权威、最前沿的定置研究方法指南 


格致出版社上海乂 w 扁為 







格致方 法 • 定量研究系列 


1. 社会统计的数学基础 

2. 理解回归假设 

3. 虚拟变量回归 

4. 多元回归中的交互作用 

5. 回归诊断简介 

6. 现代稳健回归方法 

7. 固定效应回归模型 

8. 用面板数据做因果分析 

9. 多层次模型 

10. 分位数回归模型 
H . 空间回归模型 

12删截.选择性样本及截断数据的 
回归模型 

13应用 logistic 回归分析（第二版1 

14. logu 与 probir 次序模型和多类别 
模型 

15. 定序因变量的 log IS nc 回归模型 

16. 对数线性模型 

17. 流动表分析 
18关联模型 

19. 中介作用分析 

20因子分析统计方法与应用问题 
21非递归因果模型 
22. 评估不平等 

23分析复杂调查数据（第二版1 
24分析重复调查数据 
25. 世代分析（第二版1 
26纵贯研究（第二版） 

27多元时间序列模型 

28. 潜变量增长曲线模型 

29. 缺失数据 

30. 社会网络分析（第二版） 


31广义线性模型导论 

32. 基于行动者的模型 

33. 基于布尔代数的比较法导论 
34微分方程一种建模方法 

35. 模糊集合理论在社会科学中的应用 

36. 图解代数用系统方法进行数学建模 

37. 项目功能差异（第二版1 

38. Logistic 回归入门 

39. 解释概率模型 Logit . Probit 以及其他 
广义线性模型 

40抽样调查方法简介 
41计算机辅助访问 

42. 协方差结构模型 USREL 导论 

43. 非参数回归 

44. 广义线性模型一种统一的方法 

45. Logisiic 回归中的交互效应 

46. 应用回归导论 

47档案数据 处理： 研究- 人生" 

48. 创新扩散模型 
49数据分析概论 
50. 最大似然估计法逻辑与实践 



微信 



微博 


上架 建议： 社会研究方法 


ISBN 978-7-5432-2A57-5 



定价: 20. 00元 
易文网： www. ewen. co 
格致网： www. hi books, cn 



























格致方法.定量研究系列 吴晓刚主编 


应用回归导论 


[ 美 ] 迈克尔 • S. 刘易斯-贝克 
(Michael S.Lewis-Beck) 

曾东林 



SAGE Publications, Inc. 

格致出版社 _ 上海成 W 


图书在版编目 （CIP) 数据 

应用回归导论 /( 美)贝克 (Beck，MS.L.) 著; 曾 
东林译 .一 上海 :格致 出版社 ：上海 人民出版社， 

2014 

(格致方法•定量研究系列） 

ISBN 978-7 - 5432 - 2457-5 

I. ①应 … n. ①贝…②曾… m .① 回归分析-研 
究 IV. ① 0212.1 

中国版本图书馆 C1P 数据核字 (2014) 第261261号 


责任编辑高璇 
美术编辑路静 


格致方法 • 定量研究系列 

应用回归导论 

[美]迈克尔 • S. 刘易斯-贝克著 
曾东林译 


出版世纪出版股份有限公司格致出版社 
世纪出版集团上海人民出版社 
(200001 上海福建中路193号 www . eweaco ) 


i 


编辑部热线 021-63914988 
布场部热线 021-63914081 
www . liibooks.cn 


发行上海世纪出版股份有限公司发行中心 


ISBN 978- 7- 5432 - 2457 -5/0 117 


印 

开 

印 

字 

版 

印 


刷浙江临安曙光印务有限公司 
本 920 X 1168 1/32 
张 3.75 
数72,000 

次2015年1月第1版 
次2015年1月第1次印刷 


定价: 20.00 元 





岀版说明 


由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法. 定量研究系列”丛书，精选了世界著名的 SAGE 出版社 
定量社会科学研究丛书，翻译成中文.起初集结成八册.于 
2011年出版。这套丛书自出版以来.受到广大读者特别是年 
轻一代社会科学工作者的热烈欢迎。为了给广大读者提供 
更多的方便和选择，该丛书经过修订和校正，于2012年以单 
行本的形式再次出版发行，共37本。我们衷心感谢广大读者 
的支持和建议。 

随着与 SAGE 岀版社合作的进一步深化,我们又从丛书 
中精选了三十多个品种，译成中文，以飨读者。丛书新增品 
种涵盖了更多的定量研究方法。我们希望本丛书单行本的 
继续出版能为推动国内社会科学定量研究的教学和研究作 
出一点贡献。 




2003 年，我赴港工作.在香港科技大学社会科学部教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 
部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计学 ” （Statistics for Social 
Science ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课（事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课）。我 
在讲授这两门课的时候，根据社会科学研究生的数理基础比 
较薄弱的特点.尽量避免复杂的数学公式推导.而用具体的 
例子，结合语言和图形.帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上.即社会研究者主要为定量统计方法的“消费者”而非 
“生 产者' 作为“消费者”，学完这些课程后，我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的文 章:另 一方面，也能在自己的研究中运用这些成熟的 
方法论技术。 

上述两门课的内容■尽管在线性回归模型的内容上有少 
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量重复，但各有侧重。“社会科学里的统 i 十学”从介绍最基本 
的社会研究方法论和统计学原理开始.到多元线性回归模型 
结束，内容涵盖了描述性统计的基本方法、统计推论的原理、 
假设检验、列联表分析、方差和协方差分析、简单线性回归模 
型、多元线性回归模型.以及线性回归模型的假设和模型诊 
断。“社会科学中的定量分析”则介绍在经典线性回 1 H 模型 
的假设不成立的情况下的一些模型和方法.将重点放在因变 
量为定类数据的分析模型上.包括两分类的 logistic 回归模 
型、多分类 logistic 回归模型、定序 logistic 回归模型、条件 b 
gistic 回归模型、多维列联表的对数线性和对数乘积模型、有 
关删节数据的模型、纵贯数据的分析模型，包括追踪研究和 
事件史的分析方法。这些模型在社会科学研究中有着更加 
广泛的应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励和 
支持我将两门课的讲稿结集出版，并帮助我将原来的英文课 
程讲稿译成了中文。但是.由于种种原因.这两本书拖了多 
年还没有完成。世界著名的出版社 SAGE 的“定量社会科学 
研究”丛书闻名遐迩，每本书都写得通俗易懂.与我的教学理 
念是相通的。当格致出版社向我提出从这套丛书中精选一 
批翻译.以飨中文读者时.我非常支持这个想法.因为这从某 
种程度上弥补了我的教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
语言的精准把握能力.还要有对实质内容有较深的理解能 
力，而这套丛书涵盖的乂恰恰是社会科学中技术性非常强的 
内容，只有语言能力是远远不能胜任的。在短短的一年时间 
里，我们组织了来自中国内地及香港、台湾地区的二十几位 



研究生参与 r 这项工程.他们当时大部分是香港科技大学的 
硕土和博士研究生.受过严格的社会科学统计方法的训练. 
也有来自美国等地对定量研究感兴趣的博士研究生。他们是 
香港科技大学社会科学部博士研究生蒋勤、李骏、盛智明、叶 
华、张卓妮、郑冰岛.硕士研究生贺光烨、李兰、林毓玲、肖东 
亮、辛济云、於嘉、余珊珊，应用社会经济研究中心研究员李 
俊秀； 香港大学教育学院博士研究生洪 岩璧； 北京大学社会 
学系博 i ： 研究生李丁、赵 亮员； 中国人民大学人口学系讲师 
巫锡 炜：中 国台湾“中央”研究院社会学所助理研究员林宗 
弘； 南京师范大学心理学系副教授 陈陈； 美国北卡罗来纳大 
学教堂山分校社会学系博士候选人姜念涛;美国加州大学洛 
杉矶分校社会学系博士研究生 宋曦; 哈佛大学社会学系博士 
研究生郭茂灿和周韵。 

参与这项工作的许多译者目前都已经毕业.大多成为中 
国内地以及#港、台湾等地区高校和研究机构定量社会科学 
方法教学和研究的骨干。不少译者反映.翻译工作本身也是 
他们学习相关定 M 方法的有效途径。鉴于此.当格致出版社 
和 SAGE 出版社决定在“格致方法 • 定量研究系列”丛书中 
推出另外一批新品种时，香港科技大学社会科学部的研究生 
仍然是主要力量特别值得一提的是.香港科技大学应用社 
会经济研究中心与上海大学社会学院自2012年夏季开姶. 
/]： I :海（夏季）和广州南沙（冬季)联合举办“应用社会科学研 
究方法研修班”.至今已经成功举办三届„研修课程设计体 
现“化整为零、循序渐进、中文教学、学以致用”的方针，吸引 
r -大批冇志于从苹定量社会科学研究的博 t 生和 青年学 
没.他们中的不少人也参与了翮译和校对的工作。他们在 
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繁忙的学习和研究之余，历经近两年的时间，完成了三十多 
本新书的翻译任务.使得“格致方法 • 定量研究系列”丛书更 
加丰富和完善。他 们是： 东南大学社会学系副教授洪岩璧， 
香港科技大学社会科学部博士研究生贺光烨、李忠路、王佳、 
王彦蓉、许多多•硕士研究生范新光、缪佳、武玲蔚、臧晓露、 
曾东林，原硕士研究生李兰，密歇根大学社会学系博土研究 
生王骁，纽约大学社会学系博士研究生温芳琪，牛津大学社 
会学系研究生周穆之，上海大学社会学院博士研究生陈 
伟等。 

陈伟、范新光、贺光烨、洪岩璧、李忠路、缪佳、王佳、武玲 
蔚、许多多、曾东林、周穆之，以及香港科技大学社会科学部 
硕士研究生陈佳莹，上海大学社会学院硕士研究生梁海祥还 
协助主编做了大量的审校工作。格致出版社编辑高璇不遗 
余力地推动本丛书的继续出版，并且在这个过程中表现出极 
大的耐心和高度的专业 精神。 对他们付出的劳动.我在此致 
以诚挚的谢意。当然，每本书因本身内容和译者的行文风格 
有所差异，校对未免挂一漏万.术语的标准译法方面还有很 
大的改进空间。我们欢迎广大读者提出建设性的批评和建 
议，以便再版时修订。 

我们希望本丛书的持续出版，能为进一步提升国内社会 
科学定量教学和研究水平作出一点贡献。 


吴晓刚 

于香港九龙清水湾 



我们对这本期待已久的关于应用回归分析的书稿终于 
可以付梓成书感到非常高兴。刘易斯-贝克博士用简洁、清 
晰的文字准确无误地完成了该书的写作。我相信那些刚人 
门的社会科学研究者会发现刘易斯-贝克的这本书给他们提 
供了一个理想的起点，以此来处理回归分析的一些人门和非 
技术性的内容。这本书强调的是应用回归分析.刘易斯-贝 
克博士提供了巧妙的例子来阐述有关正确运用和滥用回归 
分析的要点。他的例子包括 :收 人的决定因素，其中教育、资 
历、性别和政党立场作为自变量；影响采煤业死亡事故的因 
素； 阿根廷大选中左右贝隆所获选票的 因素； 其他一些回归 
分析的实际应用。 

刘易斯 -贝克 使用了很多例子来凸显其在解释回归分析 
所蕴含的假设方面的优势。他首先简洁地列出了这些假设， 
然后详尽地就每一个假设在实际使用中所要表达的意思及 
其实质性含义进行了非常出色的文字说明。人门者将会迅 
速地领会这些假设及其重要性，并知道如何在他们想要解决 
的实质性问题中评估这些假设。 
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刘易斯-贝克教授为回归分析的斜率估计和截距估计 • 
以及对它们的解释都提供了简洁明了的处理方法„该书也 
展示并解释了可用于评估回归直线“拟合优度”的技术.包括 
对决定系数和显著性检验的讨论.后者呈现于对置信区间的 
更为一般的讨论之屮。对显著检验的 i 寸 论包拈 了单尾检验 
和双尾检验.因而远胜于大多数初级的应用回归教材。另外 
一个突出的地方是在回 W 分析中对残差分析或者误差项的 
处理.它们的诊断能力在评估回归模型的假设时被清晰地屣 
示出来。 

最后，第3章介绍了多元回归分析（前面两章仅仅处理 
了二元回归.复杂的多元回归紧接其后）。在介绍完二元回 
归的基础上.该书简洁而又清晰地介绍了多元回归的原理。 
在多元的环境下.二元回归所涉及的每一个要点都被 拓展. 
此外这也在一定程度上考虑了交互效应和多元共线性的复 
杂性问题。在总结部分.该书还关注了设定错误和测量度. 
其中包括虚拟变量的分析。在本书中，每-个问题都会通过 
大量例子来解释。 

本书的重要性再怎么强调也不过分。或许回归分析比 
其他统计技术更能划分社会科学的学科界限。这1没必要 
列举其用途，因为所有社会科学的研究者，无论是那些尝试 
实证研究或是希望能紧跟学术前沿的人，都毫不怀疑地认同 
理解回归分析的必要性。 


约翰 • L . 沙利文 
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社会研究学者经常询问两个变量之间的关系，这样的例 
子非常多。譬如.男性是否比女性更多地参与政治？工人阶 
级是否比中产阶级更倾向于自由主义？民主党的国会议员 
是否比共和党的国会议员花费更多的纳税人款项9失业率 
的变化是否与总统民意支持率的变化相关联？关于这种常 
见疑问的具体实例是，“变量 x 与变量 y 的关系是什么”? 

答案来自二元回归-种用一条直线来拟合散点的简单 

技术。 



第 1 啬二元 回归: 拟合一条直线 


第1节 I 精确关系与非精确关系 


两个变量 X 与 Y 可能精确或非精确地关联。在自然科 
学中，变量之间通常具有精确的关系，最简单的关系是自变 
量(“原因”)一-标记为“ X ”，以及因变量（“结果") 一 标记 
为 “ y ”, 两者的关系是一条直线.用方程表 示为： 

Y=a +bX 

其中.系数的值〃和6为这条直线限定了精确的高度和倾斜 
度。从而.系数〃被视为截距或者常数.系数6被视为斜率。 
例如.表 1.1 使用一组假设的数据来显示 Y 与 X 是线性的关 
系，用方程表示 如下： 


y = 5 + 2 X 

表 1.1 X 与 V •的完全线性关系 

y=5+2X 


X 


Y 


13 


15 




4 
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图 l . la 显示了这条拟合了表 1.1 数据的直线。我们注 
意到对于每一个； c 的观测值，有且仅有一个可能的 y 值。 
例如，对应于； C 的值为1， Y —定是等于7。如果 X 的值增 
加一个单位, Y 就会精确地增加2个单位。因此，知道了 X 
的值, Y 值则能精确地被预测。我们都熟知的一个例 子是： 

Y = 32 + 9/5 X 

其中，华氏温度 m 是摄氏温度 ( x ) 的精确线性函数。 



0 1 2 3 4 5 

Y • 



图 u x 与 y 的非精确线性关系 


与上述例子相反,在社会科学中变量之间的关系几乎都 
是非精确的。更为真实的是，两个社会科学变量之间的线性 
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关系在方程中表 示为： 

Y = u-\~bX+e 

其中^表示误差。图 1.1 b 表达了社会科学数据中的典型线 
性关系.其方程与表示表 1.1 中那些数据的方程相比增加了 
一个误差项， 

Y = 5~\-2X+e 
误差项承认了预测方程 

Y =5 + 2 X 

自身并不能完美地预测 y 值 ( f 把预测到的 y 值与观测到的 
y 值区分开来）。每一个 y 值并不会精确地落在直线上，因 
此，对于一个给定的 x 值，有可能出现不止一个 y 值。譬 
如，当 x=i 时,我们可以知道预测值 y =7,但有可能存在一 
个 y = 9 的值。换句话说.知道 x 并不意味着可以知道 y 
的值。 

这种非精确性不足为奇，例如.假如参与选举投票 
次数（自上一次总统选举），^=竞选捐献（美元），我们并不能 
预期那些参与了三次选举投票的人都精确地捐献了同样的 
金额。然而，我们还是可以预期那些参与了三次选举投票的 
人很可能比那些参与了一次选举投票的人捐献得更多，但比 
那些参与了五次选举投票的人捐献得更少。用另一种方式 
表示就是，个人的竞选捐献金额是其选举参与的线性函数. 
加上如图 1. lb 所描述的误差项。 
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第2节 | 最小二乘法则 


在假定社会科学变量之间的关系时.我们通常假设线 
性。当然.这种假设并不总是正确的。但至少其作为一个起 
点，这个假设在某些方面还是合理的。首先，很多关系已经 
在经验上被证明是线 性的； 其次.这种线性设定通常是最简 
单的; 第三，我们的理论往往是不够完备的，以至于不足以让 
我们确定非线性设定的类型；第四，对数据本身的观察可能 
无法找出一个直线模型以外的替代模型。以下我们将致力 
于构建变量之间的线性关系.尽管这样，我们仍然需要经常 
警惕这种关系实际上是非线性的可能性。 

鉴于我们希望用一条直线把 y 与 x 关联起来，随之而来 
的问 题是: 在所有可能的直线中.我们应该选取哪一条？在 
图 1.2 a 的散点图中，我们根据下面的预测方程手绘了直 
线1: 

Y =<a , + 6, X 

从中我们可以观察到这条直线并不能完美地预测，例如，直 
线距离观测点 1 的垂直距离是 3 个单位值。对于观测点 1 或 
者其他任意观测点 h 预测误差的计算方 法是： 

预测误差=观测值一预测值 = y , +女， 
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y=a l+ ^,X 



X 


图 1.2 对散点的一些直线拟合 


加总所有观测点的预测误差得到总预测误差 （ TPE ) •总预测 
误差= 2 d — V ( )=(+ 3 — 3 + 4) = 4 0 

直线1在拟合数据上的效果无疑优于直线 2( 见图 1.2 b ), 
直线2表示为 方程： 

Y =«2 + b z X 


直线2的 TPE = 18。 然而，除了直线2以外还存在很多可与 
直线1比较的直线。直线1是否把预测误差减少到了最小* 
或者还存在其他直线使得预测误差更小？显然•我们不可能 
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估计散点图 lr . 所有可能的直线.于是.我们依赖微积分來找 
出《和/，的值.进而得到这条良有最小预测误差的直线。 

在演示这种方法之前.我们有必要对预测误差的概念作 
出些许修改。注意，直线 3( 见图 1.2 c ) 是由以下方程表 示的: 

Y =a .+b X 

其拟合的效果不如直线1.虽然 TPE = 0。 该例子 揭示了 
TPE 不足以被用来衡量误差.因为正的误 差趋向 于抵消负的 
误差(这里.一6 — 4+10 = 0)。一个被用来解决这种相反符 
号问题的方法是对每一个误差都取平方（我们 ft 〗 绝这种使用 
误差的绝对值的方案，因为其没有充分考虑较大的误差并且 
这种 汁算 是+实用的 h 那么.我们的目标就是选择这条直 
线以最小化误差的平方和 ( SSE ): 

sse = X ( y , - y ,) 2 

通过使用微枳分.我们可以得到最小的平方和.系 数为： 

y ；( x , - xkv , 一 y ) 

b= ——=-=- 

S(u ) 1 

« = Y-bX 

U 和 A 的值即我们的最小二乘估 il \ 

此时在研究案例中应用最小二乘法则是恰3的。假设 
我们正在研究 Riverside 市（一个假想的位于中西部的中等城 
市)政府雇员之间的收人 差异。 初步的访问显示/收人与教 
育之间 的关系 .具体而言•那些接受过更高11:式教育的人会 
得到更高的工资，为了验证事实是否如此.我 f I ' ] 搜集了相关 
的数据 ； 
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第 3 节 I 数据 


我们没有足够的时间与经费去访问这个城市的工资表 
上所有306位政府雇员，因此，我们决定从由这个城市的热 
心职员所提供的人员列表中抽取一个包含32位雇员的简单 
随机样本.以此作为访问对象 1: (样本的符号记做“〃”.在这 
里《 =32)。表 1.2 列出了我们所获得的有关每一个受访者 
的当前年收入(记做变量 y ) 和正式教育年限（记做变量 X )。 


表 1.2 教育和收入的数据 


受访者 

教育(年 ) : V 

收人(美元 ) y 

受访者 

教育(年 ) x 

收人(美元 ) Y 

1 

4 

6 281 

17 

12 

16 908 

2 

4 

10516 

18 

12 

18 347 

3 

6 

6 898 

19 

13 

19 546 

4 

6 

8 212 

20 

14 

12 660 

5 

6 

11 714 

21 

H 

16 326 

6 

8 

8618 

22 

15 

12 772 

7 

8 

10 011 

23 

15 

17 218 

8 

8 

12 405 

24 

16 

12 599 

9 

8 

14 664 

25 

16 

14 852 

10 

10 

7 472 

26 

16 

19 138 

11 

10 

11 598 

27 

16 

21 779 

12 

10 

15 336 

28 

17 

16 428 

13 

11 

10 186 

29 

17 

20 018 

14 

12 

9 771 

30 

18 

16 526 

15 

12 

12 444 

31 

18 

19414 

16 

12 

14 213 

32 

20 

18 822 



应用回归导论 


4节 | 散点图 


通过简单读取表 1.2 的数字•我们很难判断是否存在某 
种教育( X )与收入 ( Y ) 之间的关联，然而，当这些数据被展示 
在散点图上的时候，情况就变得更清晰了。在图 1.3 中， X 轴 
表示教育水平 . Y 轴表示收人水平，每一个受访者对应着一个 
点- - X 值的垂直线与 y 值的垂直线相交处。例如•图 1.3 
的点线设定了第三位受访者的位置- 收 入为6 898美元, 
教育年限为6年。 

y 

20 000 - 
17 500- 
15 000 - 
憋 12 500- 
^ 10 000 - 
7 500' 

5 000- 
2 500- 

0 


通过目测来检查这张散点图，我们判断这种关系基本上 
是线性的 更高的教育年限导致更高的收入水平。用方 
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程表示这种关系， 

Y = ci ~h bX ~ f ~ e 

其中上=受访者的年收入(单 位：美 元 ）， X = 受访者的正式 
教育水平(单位:年 ） ，a =截距 .6 =斜率， f * =误差。 

用最小二乘法估计该方程 得到： 

Y =5 078 + 732 X 

于是,这条直线最佳地拟合了散点（图1.4)。通常这个预测 
方程被视为二元回归方程（进一步地，我们可以说这是 y 对 
X 的回归）。 


i)y^ 


图 1.4 收入与教育的回归直线 
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第5节 I 斜率 



对估计量的解释是简 单的。 首先考虑斜率6，其估计量 
表明每一单位 x 的变化所对应的 y 的平均变化。在 
Riverside 例子中，斜率的估计量732表示雇员的正式受教育 
水平每增加1年,对应平均年收人增加732美元。用另外一 
种方式表示就是，我们可以预期一个拥有11年受教育水平 
的雇员，其年收人将比只有10年受教育水平的雇员多732 
美元。通过研究图 1.4 中X =10和 X =11时 y 的预测值， 
我们可以看到斜率如何标示了 1个单位 X的变化所引起的 
y 的变化。 

注意，斜率仅仅告诉我们1个单位X的变化所伴随的 Y 
值的平均变化。社会科学变量之间的关系是非精确的，即误 
差项总是存在的。例如，我们不会做这样的假设 --认为对 
于每一个特定的 Riverside 雇员，其每增加1年的受教育水平 
都会精确地增加732美元的年收人。但是，当我们大量地观 
察那些已经获得额外1年的受教育年限的雇员时，他们所增 
加的收人平均值将会是732美元。 

斜率的估计值表明了由1个单位X的变化所导致 Y 的 
平均变化，当然，这里使用因果的说法未必恰当。 Y 对X的 
回归有可能支持因果关系的主张.但回归本身并不能建立这 
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种因果关系。要领会这个要点，应注意到对以下方程应用最 
小二乘法将是一件简单的 事情： 

X =a -\- bY ~h e 

其中， 久=因 变量, 7=自 变量。显而易见，这样一个计算练 
习不会马上逆转现实世界中 x 与 y 的因果顺序。对变量而 
言.其正确的因果顺序是由估计程序以外的因素所决定的。 
在实践中，这基于理论的思考、合理的判断，以及过去的研 
究=关于 Riverside 的例子，变量的真正因果关系确实反映在 
我们的初始模型中，即教育年限的变化显然会导致收人的变 
化。而认为收人的变化导致正式教育年限变化的观点是令 
人难以置信的。于是.我们可以比较稳妥地推断.增加1年 
的正规教育将导致平均收人增加732美元。 
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第6节 | 截距 


u 被称为截距是因为其指示了回归直线与 V 坐标相交 
的点。截距估计了当 ； f 等于0时 . y 的平均值，于是，在 
Riverside 的例子中，对截距的估计表明了对那些没有受过正 
规教育的人而言，预期的收人将会是5 078美元。这个特定 
的估计量强调了解释截距时需要注意的地方。首先，我们应 
当小心避免基于一个超出数据范围的 X 值来预测 Y 值。在 
这个例子中.最低的受教育水平是四年.因此.推导那些没受 
过教育的人所对应的收人是一件冒险的事。毫不夸张地说， 
我们将会作出超越经验范围的归纳，因此这样的结果有可能 
是无稽之谈。如果我们确实对那些没受过教育的人感兴趣. 
那么收集他们的数据将是一个明智的选择。 

第二个问题是当截距出现负值的时候。当 X =0时 .Y 
的预测值将会必然地等于负数。然而，在我们的现实世界 
中，小于0的 y 值往往是不可能出现的.例如. Riverside 的雇 
员不可能得到负收人。在这样的例子中，照字面上来看截距 
是没有意义的。截距的效用将会被限制在一定范围内，以确 
保一个预测是“正确的”。截距是一个必须附加到斜率项 
“ wr 上的恒量.以确保 y 能够正确地被预测。从一个企业的 
经济学角度来做一个类比.截距就代表了“固定成本”.必须连 
同由其他因素所决定的“变化成本”一起来计算“总成本”。 
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第7节 | 预测 


omBBNmmM 


知道了截距和斜率，我们就可以根据 X 值来预测 Y 。 例 
如.如果我们知道了一位 Riverside 雇员的受教育年限为10 
年.那么就可以预测他/她的收人将会是12 398美元,如下 所示： 

Y =5 078 + 732 X 
= 5 078 + 732(10) 

= 5 078 + 7 320 

V =12 398 

在研究中，我们可能关心的主要是预测而不是解释。换 
言之.我们在研究时可能不会直接关心如何辨別那些会引起 
因变1发生变化的变量.相反.我们可能想要找出那些 可以 
iJ :我们对因变量的值作出准确猜测的变量。例如，在研究选 
举的时候，我们只是简单地想预测获胜者，而不是关注为什么 
他们会贏得选举。当然.预测模型与解释模型并不是完全不 
同。通常情况下.一个好的解释模型将会取得相当好的预测 
效果，同样.一个准确的预测模型通常是基于因果关系的变 
M •或者是它们的替代。在构建一个回归模型的时候.研究问 
题决定了该模型应该侧重于预测还是解释。可以很肯定的一 
点是.通常社会科学家更强调其解释功能而不是预测。 
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第8节 | 评估解释 效能： H 2 


回归模型到底能够发挥多大程度的解释（或者预测）效 
能？更为技术性的说法是，回归方程解释因变量的变化的 
效果到底如何？初步的判断来自对散点图的视觉观察.当 
回归直线越靠近数据点时.方程就越能更好地“拟合”数据. 
尽管“目测”是决定一个模型的“拟合优度”的至关重要的第 
一步,但显然我们还是需要一个更为正式的测量-决定 
系数 ( i ? 2 )。 

本部分的讨论从考虑预测 v 的问题开始。假如我们只 
有观测的 y 值.那么最好的预测结果就是估计 y 的平均值。 
显然，对每一个个案而言，这样估计的平均值会得到很多糟 
糕的 预测。 然而，假设 x 与 y 是相关的，知道 x 的平均值将 
会改善我们的预测效能。随之而来的问题是，到底 x 所提供 
的信息能在多大程度上改善我们对 y 的预测？ 

图 1.5 是表示一条回归直线拟合了数据点的散点图。现 
在我们考虑一个实际案例的预测—— I 。当忽略 x 值时， 
对 y 的最佳猜测将是平均值 V 。在这个猜测中有大量误 
差.标记为真实数值与平均值的偏差——但是.通过 
利用已知的 x 与 y 的关系，我们能改善预测。对于特定的 
值—— x , ，回归直线预测因变量的值是，这比前面的估计 
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有明显的改进。于是，回归直线解释了一部分观测值与平均 
值之间的偏差，具体而言.其“解释”了部分，即孓。尽管 
如此.我们的回归预测并非完美的，其偏离的数量是兄- 
这个偏差是未被回归直线所解释的部分。简言之与 
其平均值的偏差可由以下部分 组成： 

( y , - y )= y , 与其平均值7的总偏差 
(¥,-7)=7, 与？的偏差中被解释的部分 
( Y , 一夕, ）= y ，与 P 的偏差中未被解释的部分 


y 



图 i .5 对 V 的变异的分解 


我们可以对研究中的每一个观测计算这些偏差，如果我 
们先对这些偏差取平方.然后加总，对因变量的变异而言，我 
们就得到其全部组成 部分： 

— y ) 2 =总的偏差平方和 ( tss ) 

2] (:?，—尹) 2 =回归(被解释）平方和 ( RSS ) 
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- V ,)=残差（未被解释）平方和 （ ESS ) 
从中，我们 得到: 


TSS = RSS+KSS 

TSS 代表 T 我们想要解释的因变量的总变异，其又可以 
被分解成两 部分: 囬归方程解释的部分 （ RSS ) 和回归方程未 
被解释的部分 ( ess )( 回顾前述最小二乘法保证 r 残差部分 
是最小 的〉. ，显然.相对于 TSS 而言 • RSS 越大表示效果越 
好.这种思想构成了 

R = RSS/TSS 

决定系数/厂衣明 f 二元回 n 方程的解释度.其显示 r 
因变量的变异中被 ft 变 M 所“解释”的部分。 •^的 取值范 
围从“+1”到 ••()”,. 种 极端情况是当 K : = 1时.自变 tt 完 
全解释了因变量的变异 t 当所有观测点都落在回归直线上 
时.只要知道了 X 的值就能毫无偏差地预测 y 值。图1 .6 a 
演示了当 W 7 = 1时的例？。 另外一 种极端情况是当 K = 
0时，自变 M 完全不能解释因变 M 的变异。此时 A ' 的倍息 
对 M 测 Y 值没有帮助 . W 为这两个变量之间是完全不相关 
的。图1 . 6 b 演示了当 f = 0时的例子（请注意 I [线的斜率 
为0)。通常情况下，尺处于两种极端之间，此时，尺 2 的值 
越接近1，回归直线就越好地拟合数据点，史多的 Y 的变异 
就能够被 X 所解释。在 Riverside 的例子中，尺 • = 0. 56 ,也 
就是说.教 ff 这个自变量解释 r 大约％ %的因变量-收 
人 的变异。 

在 I •別丨分析中.当的值较高时.我们儿乎总是会感到 
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图 1.6 f 的极端值的例子 

欣喜.因为其表明我们可以解释研究现象中的大部分变异。 
进一步而言，如果我们想要精确的预测，那么一个高的 K 2 值 
(大概 0.9) 是必不可少的（在实践中，要得到这样一个量级的 
R 1 值是比较困难的，因此，定量研究的社会科学家 -至少 
是在非经济学领域.很少做预测）。但是，一个相当大的 
值并不必然意味着我们获得了对因变量的因果解释.而是 
说，我们仅仅提供了一个统计学上的解释。在 Riverside 的例 
子中.假设我们用当前的收人 y ，对前一年的收人 ，进行 
回归，修正的回归方程 如下： 

Y=a^rbY,- x +e 

此时新方程的応值将相当大（大于 0. 9 ), 但这并不能真正 
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告诉我们什么导致了收人的变化.倒不如说.这仅仅给我们 
提供了一个统计上的解释。教育作为自变量的原方程.提 
供了一个对收人变异更为可信的因果解释.尽管其圮值更 

小- 0.56。 

即使估计得到的很小（小于 0.2), 我们也不至于一 
定会感到失望.因为小的 R 2 也是有提示意义的.这有可能 
告诉我们关于这个 F 的线性假设是不正确的。当我们转 
向散点图时会发现， x 与 y 实际上存在密切联系•但二 t 是 
非线性的。例如.图 1.6 c 中由连接数据点组成的曲线（抛物 
线）说明了 x 与 y 之间存在一个完美的关系（即， y = X '), 
但0。然而.假设我们排除非线性.此时一个小的值 
仍然可以揭示 X 确实有助于解释 Y . 但只是贡献了一小部 
分。最后，一个极端小的尺 2 (接近 0) 当然会提供非常有用 
的信息，因为这暗示了实际 h Y 与 X 之间不存在线性 
关系。 

对的解释需要注意的最后一点是.假设我们对两个来 
自不同总体-标记为1和2 的样本估计同一个二元回 
归模型（例如.我们想要比较分别来自 Riverside 和 Flatburg 
的收人一教育模型）。即使对于每一个模型的参数估计是一 
样的.样本1的尺 2 与来自样本2的 R 2 也可能不同。这也简 
单地暗示了变量之间的结构关系是一样的 （ a , = a !， b ' = 
心）.但是样本2的可预测性更低。换句话说.相同的一个方 
程为两个样本都提供了可选的最佳拟合，但是在第二个实例 
中.其作为因变量的一个整体解释不太令人 满意。 事实上. 
这是很明确的，正如我们从图 1.7 a 和图 1.7 b 的比较所看到 
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的.图 1.7 a 的数据点更加紧凑地聚集在回归直线周围，这表 
明模型有更好的拟合度。因此，自变量 X 在样本1中比在样 
本2中有着更为重要的决定作用。 

R 2 , > R z 2 



紧凑拟合 松散拟合 

图 1.7 回归直线所对应的紧凑拟合与松散拟合 
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第9节 I H 2 与 r 


决定系数兄'与相关系数的估计量「之间的关系可以简 
单地表 示为： 


R =；-■ 

这个等式表明了 r 作为一个常用的关系强度的指标在这里 
可能出现的问题，即 . r 有可能夸大了 X 与 Y 之间关系的1 
要性。[ 2 ]例如，一个 0.5 的相关系数向粗心大意的读者暗示 
了一半的 y 被 X 所解释.闪为一个完全相关是1.0。实际 h . 
我们知道 r = 0.5 意味着 Y ' 的变异仅仅被 X 解释了 25%(因 
为 r - =0.25), 即还有3/4的变异没被解释（只有在 r = ±1 
或者0这样的极端情况下才会等于 R 2 )。 依赖 r 而不是 
会使得 X 对 Y 的影响看起来比实际上更大。因此，想要 
评估因变量与自变量之间关系的强度是首选。 
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回顾一下前述 Riverside 研究的回归结果只是基于一个 
城市雇员的样本(》 =32), 因为我们的目的是准确推断真实 
的总体截距与斜率参数，因此二元回归模型应该满足特定的 
假设。对总体而言，二元回归模 型为： 

Yi =a /?X ，+ e , 

其中希腊字母表明这是总体的方程，并且下标/表示第，个 
观测。通过样本计算 


Y, =a+bX, +e, 

为了能够从样本值 a 和6准确地推断真正的总体值 a 和/?， 
我们做以下假设。 
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第1节 I 回归假设 


1. 没有设定错误。 

(1) x , 与 y , 的关系是线性的。 

(2) 没有相关的自变量被排除在外。 

(3) 没有不相关的自变量被包括进来。 

2. 没有测量误差。 

(1) 变量 X ,与 V ,都是准确测量的。 

3. 以下假设关注误差项 

(1) 均值为0: E ( e ,) =0. 

①对于每一个现测而言，误差项的期望值为 0( 我 
们使用符号 E () 表示期望值-对于一个随机变量 
而言，简单地等同于平均值）。 

(2) 同方 差性： £( ef )=<7 2 。 

①对于所有 X ,的值.误差项的方差是常教 3 

(3) 不存在自 相关： £( e , e ,)=0(/ 式_/)。 

①误差项是不相关的。 

(4) 自变量与误差项不 相关： £(£,；(：,) =0。 

(5) 正态性。 

①误差项 e , 是正态分布的。 
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当假设1到假设 3(4) 都被满足的时候，我 f |' j 将会得到关于总 
体参数 a 和/?的理想佔计值。从技术上来说.这些佔计 
值将是“最优线性无偏估计”，即 BLUK ( —般而—个无偏 
的估计量正确地佔计 r 总体参数.即 E W =仏例如.假如 
我们从总体中重复取样.每次都觅 新汁算 A 值.我们将预期 
所有6值的平均数等于/?>。假如正态性假设.即3(「>)也成 
立 . 那么该估 if 就是“最优无偏佔汁”.这时我们就可以进行 
显著性检验，以决定总体参数的值不为0的概率。接下来我 
们将更为洋细地介绍每一个 假设。 

第一个假设.没有设定错误非常关键。概括来说•其断 
言方程所包含的理论模型是 II :确的。也就足说，关系的函数 
形式实际上是一条直线.没冇变》错误地被排除出去或荇错 
误地被作为“原因”包括进来。让我们检査 Riverside 的案例 
中的设定错误.对散点图（图 1.4 ) 的形状所做的 H 测检查.以 
及 F =0.56 .都表明这种关系基本 L 是线性的。然 ( M , 很可 
能相关的变 tt 被排除 f ,因为教育以外的因素毫尤疑问会影 
响收人。这些其他因素应该被识别并加人到方程里，以提供 
一个更为完整的解释并在考虑其他额外因素的前提 F 评估 
教育的影响（我们将在 F —章继续这部分工作）。设定错误 
的最后一个方面 包括了不相关变量.认为教育可能并不 
是真的与收人相关。要想估计这一可能性，我们将进行显著 
性检验。 

第二个假设，没有测量误差.这个要求是不言而喻的。 
如果我们的测量都是不准确的.那么我们的估计很可能是不 
准确的例如.在 Riverside 研究中.假如在教育这个变量的 
测量上，受访者倾向于报告他们想要获得的受教育年数.而 
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不是他们实际上已经获得的受教育年数。如果我们用这样 
一个变量来代替实际上已经获得的教育年数，误差就不可避 
免了，并且得到的回归系数不能反映实际教育对收人的影 
响《■当分析者不能完全地排除测量误差的可能性时.那么该 
估计问题的大小取决于误差的性质和位置。如果只有因变 
量出现测量误差.只要误差是“随机的”.那么最小二乘估计 
可能仍然是无偏的。然而，如果自变量出现测量误差，那么 
最小二乘法将是有偏的，在这样的环境下.所有解决方案都 
是有问题的.最经常被引用的方法是工具变量估计,但是这 
并不能保证可以还原到无偏的参数估计。 

第三个假设涉及误差项。该部分的第一个条件 -0 均 
值 是很少被关注的.因为不管怎样，斜率的最小二乘估 
计是不 变的。 真实的情况是.如果这个假设不成立.那么截 
距的估汁将会是有偏的。尽管如此，因为截距估计在社会科 
学研究中是次要的关注点•这个偏差的潜在来源是相当不重 
要的。 

与 h 述问题比较.违反同方差性假设会产生更严重的后 
果。尽管最小二乘估计仍然是无偏的.显著性检验和置信区 
间将会是错误的。检査图 1.4 中 Riverside 的研究例子，同方 
差性将会满足•因为预测误差的方差随着 X 值的变化差不多 
是常量.即数据点围绕在回归直线上下方一段相同宽度的范 
围内》如果数据点随着 X 值的增加在回归直线上呈扇形散 
开，那么同方差假设将不成立，异方差将会出现。针对这个 
问题，我们建议的解决方案是运用加权最小二乘法（异方差 
的诊断将会在考虑残差分析的时候被进一步讨论）。 

不存在自相关的假设意味着一个观测所对应的误差项 
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与其他观测所对应的任意误差项都是不相关的。当自相关 
存在时.最小二乘估计仍然是无偏的，然而，显著性检验与 
置信区间都是无效的。通常，显著性检验更有可能显示一 
个系数是统计上显著的.而事实上并非如此。相比横截面 
变量（同一个时点上对应不同统计单位的单一观测，正如 
[ Riverside 的例子所示），自相关更为频繁地出现在时间序列 
变量中（同 - 个统计单位随着时间变化的重复观测）。对于 
时间序列数据，要满足不存在自相关的假设.则要求前一个 
时点的观测所对应的误差项与后一个时点的观测所对应的 
误差项都不相关。如果我们把方程中的误差项在某种程度 
匕设想为那些被排除在回归模型以外的解释变量.那么.不 
存在自相关暗示着那些在第一年影响 y 的因素.与那些在第 
二年影响 Y 的因素是独立的。 [3] 显然，这个假设往往是站不 
住脚的（有关时间序列分析的研究已经有大量的文献.其中 
一篇优 秀的介绍文献可参阅 （ Xstrom . 1978)。 

接下來的假设.自变量与误差项不相关，在非试验研究 
中是很难满足的。我们通常不能如实验者那样随意设置 X 
的值，而只能观察 X 在社会中所呈现出来的值。如果观察到 
的这个 X 变量与误差项相关.那么最小二乘法的系数估计将 
会是有偏的。检验违反这种假设的最简单方法是把误差项 
作为一系列被排除的解释变量进行评估.其中的每一项都可 
能与 X 相关。回到 Riverside 的例子中.误差项将会包括除 
教育以外的收人决定因素，如受访者的性别。如果解释变量 
“教育”与解释变量“性别”是相关的•而后一个变量又被排除 
在方程以外.那么在二元回归中对教育这个变量估计斜率的 
时候，其结果是有偏的。系数将会偏大.因为教育这个变 
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量被用来解释收人变异中本应该由性別差异所解释的那部 
分。我们将要采用的补救方法是合并缺失变量到模型中（如 
果由于某些原因使得一个解释变量无法被合并进来，那么我 
们必须要相信这个假设 ：在 模型中作为误差项的一部分，这 
个解释变量与自变量实际上是不相关的）。 

最后一个假设，误差项是正态分布的。因为 y , 与 e , 的 
分布是一样的（只有它们的均值不同），通过简单地考虑 
的分布将使我们的讨论变得更为方便。符合正态分布的变 
量.其频数分布呈现对称的钟形，并且95%的观测落在均值 
的左右两个标准差内。回到 Riverside 的例子，收人变量 ( Y ,) 
的每一个观测都可以绘制在一个频数多边形里，以便我们对 
其正态性进行目测检查。或者.就快速的初步检查而言，我 
们可以分别计算大于均值和小于均值的观测数目，并预计其 
大约平均分布在两侧(实际上，分别各有16个观测大于和小 
于均值13 866美元.这暗示了样本符合正态分布）。此外 .一 
个更为正式的测量是偏态统计 （skewness statistic ) ，其考虑 
频数分布的所有信息，用公式 表示： 

. 2 (^) 3 

偏态 = -- 

n 

如果分布是正态的，那么偏态=0。就我们的收人变量而言， 
计算偏态的结果为_ 0.02 ,说明了分布几乎是正态的。 

关于违反回归假设的严重性这个问题，统计学方面的文 
献存在一些争议。一种极端情况是.研究者认为回归分析是 
“稳健的”，违背假设不会从实质上影响参数估计。这种“稳 
健”回归的观点被克林格和佩德黑泽 （Kerlinger Pedhazar , 
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1973) 所采用。另一种极端的情况是，一些人感觉违背回归 
假设使得回归结果变得几乎无用。毕比 （ Bibby , 1997) 的研 
究提供了一个例子来说明回归分析脆弱的一面。显然.一些 
假设比其他假设更为稳健。比如，当样本足够大的时候.正 
态性假设则吋以被忽略，因为此时中心极限定理就被调用了 
(中心极限定理表明这些自变量 我们可以设想误差项作 
为代表——的分布随着样本量的增大趋向于正态性，而不管 
总体是如何分布的）。相对而言，设定错误的出现.例如排除 
了相关变量，会产生更为严重的估计问题.其解决方法只能 
通过向模型中添加被遗漏的变量。对于那些想要全面理解 
回 H 假设的这种争议的读者，可以参考博恩施泰特和卡特 
(Bohrnstedt &- Carter , 1971) 的文章。关于回归假设更为高 
级的处理方法 . 4以从 n •量经济学的教科书上得到.我在这 
里列出这些教科书以增加 难度： 科勒建和奥茨 （Kdejian ^ 
Oates , 1974)、平代克和罗宾费尔德 （Pindyck &. Rubinfeld . 
1976)，以及克曼塔 ( Kmenta . 1971) 的 著作。 
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第2节 | 置信区间与显著性检验 


因为社会科学数据总是包含样本.我们担心我们的 wu 
系数是否在总体中实际上等于 0。 具体而言 . 斜率（或者截 
距)会显著地不为0吗？当然.我们可以检验参数佔汁是否 
显著地不等于0以外的其他数值 ：然而 .我们通常不会冇足 
够的信息来提出这样一个具体的数值。正式地说，我们面对 
两种 基本假 设:虚 尤假设与备择假设。虚无假设表明 x 与 V ’ 
是不相关的.因此•在总体中斜率为 0 。 备择假设表明 x 
与 Y 是相关的.因此.斜率在总体中不为0„总之.我们有 

H , ： 卢 =0( 虚无假设) 

H l: 矣 0( 备择假设） 

想要检验这些假设 •我 们围绕斜率估來构建一个区间. 
最常用的是双尾95%的置信 K 间： 

(6 士 ..Ml .S ,,) 

如果 0 不落在这个区间内.那么在 95% 的置信度下，我们就 
祀绝虚无假设并接受备择假设。换一种说法.我们可以 n 纳 
斜率估汁心在 0.05 的水平下显著地不为 0( 与一 个持定1信 
K 间相关的统计显著水平可以简单地由1减去置信水平得 
到，例如 1 -0.95=0.05). 
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为了使用这个置信区间.我们必须明白公式的各个部 
分.而这些都是很简单的。^是斜率估计的标准差的一个 
估 U . 其通常被称为标准误.这很好地衡量了斜率估计的偏 
离程度。标准误的公 式为： 


/ 2 ) 

■ Vft V E(x - 打 ^ 

计算机统计软件例如 SPSS . 其在估汁回归方程时通常都会 
输出这样的标准误。 

因为.、•„是一个估计量(我们很少真正知道斜率估计的标 
准差），从技术层面看.使用正态曲线来为/3构造一个置信区 
间是不正确的。然而.我们可以使用自由度为 （〃 _ 2) 的/分 
布 (/ 分布相当接近正态分布.尤其是当》变得很大的时 
候 大于30)。几乎所有的统计教科书都附有 f 分布表。 

置信区间公式的最后一个组成部分是其下标 “ 0 .；) 7 5 ”。 
这里仅仅是表明我们使用95%的置信区间.但在这里是双尾 
的。一个双尾检验意味着关于 X 对 Y 的影响这个假设是没 
有方 向的； 例如，当 A 显著为正或者显著为负时，则上述的备 
择假设 Hi 均成立。 

假如我们现在为 Riverside 的回归系数构造一个双尾 
95 %置信区间，则有 

V =5 078 + 732 X 
(1 498) (118) 


其中.括号中的数字表示参数估计的标准误。设定样本大小 
为32.参考；分布表 得到： 
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t n-1: 'l.'l：') = 132-?t 0.97 ： = / ().07* = 2.04 

因此，一个 0 的双尾95%置信区 间是： 

) = 732 士 2.04(118> = (732 ± 241) 

总体的斜率 /? 的值在 491 美元与973美元之间的概率是 
0.95。因为0不在这个区间内.我们拒绝虚无假设。我们可 
以说斜率的估计 A 在 0.05 的水平下显著地不为0。 

以同样的方式.我们为截距/?构造一个置信区间。继续 
Riverside 的例子， 

( C 2 士 阶人 ） =5 078 ±2.04(1 498) =(5 078 士 3 056) 

显然.截距的双尾95%置信区间不包含0。我们拒绝虚无假 
设并断言截距的估计《在 0.05 的水平下显著地不为0。从 
图形看.这意味着我们排除了回归直线穿过原点的可 能性。 

除了提供显著性检验.置信区间还让我们对以展示参数 
估计的范围。在二元回归方程中，6是一个点估计.即特定 
值，与此相反.置信区间提供一个区间估计.表明总体的斜 
率"落在一个值域里面》我们可能更愿意选择区间估汁而 
不是点估汁，例如在 Riverside 的例子中 •/? 的点估计是732 
美元.虽然这是我们做出的最优估计.但是在报告这个结果 
的时候.我们只是说每增加1年的教育会增加大约732美元 
的年收人。区间估计可以让我 ft j 对这种谨慎的说法规范化， 
这样我们能够肯定地说，存在95%的确定性，使得每增加1 
年的受教育水平•年收人获得从491美元到973美元不等的 
增长。 

在 Riverside 例子的分析中，在95%置信区间下我们拒 
绝了收入与受教育水平无关这样一个虚无假设。虽然如此. 
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我们知道仍然釘5%的机会使得我们的判断是错误的：事实 
J ：. 如果虚无假设是正确的.而我们在这种情况下拒绝广它 • 
那么我们就犯 r 第一类错误、想要避免第一类错误.我们吋 
以采用99%的置信区间. 这样使 得我们扩大虚尤假设的接受 
范围。 —个 P 的双尾99%置倍区 问为： 

(心土 : 0.1，•.； S ,,) 

应用到 Riverside 的例了•， 

73:2 土 2.75( 118) =(732 ±324) 

这些结果提供 r 一些证据表明了我们没有犯第一类错误, 
一 1、 g 宽的置信区间并没有包括0在内。我们继续拒绝虚 
尤假设.但是在一个更大的置信区间下。我们吋以进一步地 
说.在 0.01 的水平下斜率估汁 A 在统计上是显著的（避免第 
一类错误的努力涉及取舍的 M 题.因为这使得犯第二类错 
误 当虚无假设是错误的时候接受它 的概率不可避 
免地上升。第二类错误将在接 K 来的部分被讨论）。 
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到目前为止.我们都是集中在双尾检验， 

H 0 : /3 — 0 
H 1: /?关0 

虽然不常见.但是在研究过程中对事件的熟悉将有助于我们 
判断斜率的符号.在这样的情况 r . 单尾检验 si 能 1 五为合理。 
回到 Riverside 的例子，我们不会说斜率的符号为负•因为这 
意味 f 增加受教育年限实际 t 降低了收人水平。闪此•一个 
更为现实的假 设是： 


H , : (3 =0 
H ,： /?>0 

应用单尾95%置信区间 得到： 

/3> ( A -) =732 — 1.70( 118) 

= (732-201) =531 

区间的下限大于0。因此.我们拒绝虚无假设并推断在95% 
置信区间下斜率 为正。 

与双尾检验不同 .一 旦我们设定好了置信区间.单尾检 
验的统计显著性就变得更为容易（双尾检验置信区间更加 
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倾向于捕捉到0,如 Riverside 案例中，双尾检验和单尾检验 
的区间下限分别是491美元和531美元）。这也符合我们 
的直觉，因为这考虑到研究者先验知识，其排除了一半的可 
能性。 
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第4节 | 显著性 检验： 一个经验法则 


回想一下0的95%置信区间的双尾检验.其公 式为： 

(厶士 0.975 S *) 

如果这个置信区间不包含 () .我们推断在 0.05 的水平下是 
显著的。我们观察到置信区间不包含0.如果6的值是正的， 

(b — t n-2. ■ . 97 ：, •'>/, ) 〉0 

或者如果的值是负的， 

( 6 + ） < 0 

这些要求可以電新定义为： 

当 A 为正 ， b :, 

或者 

.由 为负 :， b / S !, t „ -2, n .9 r . 

简言之，我们可 记为： 

I b/s,, 2. U.!»7S 

当用参数估计 6 除以它的标准误 h .并对结果取绝对值后， 
其结果 大于/ 分布值 i 7的时候•我们拒绝虚无假设。 
于是，一个 0.03 水平下的显著性《尾检验可以通过检查这个 




应用回归导论 


比率来控制。如果读者可以观察到 r 分布的值接近2 — 对 
任意大小的样本，该检验就可以进一步简化。例如，当样本 
大小为20时，/ 2i f IS. U.'i7；. = 2. 10。对比之下，如果样本 
是无限大的，这时候1.96。这个由/分布得到的较 
小的值域可以让我们设定以下经验法则如果 

I /".、、1>2 

那么，参数估计6在 0.05 水平下的双尾检验是显著的。 

这个 /值在 各种统计分析的计算机程序中通常都会输 
出在回归结果中。否则.我们也很容易通过用除以计算 
得到 . /值为显著性检验提供了一个有效的方式，并且，研究 
人员经常使用/值来做显著性检验。当然，当我们需要更精 
确的分析时，就需要经常查看 /表。 以下是 Riverside 例子中 
的二元回归模型，参数估计下面的括号里列出了 r 值： 

y =5 078+ 732 X 
(3.39) (6.23) 


快速浏览/值，可见其大于2,于是我们马上推断在 0.05 水平 
下, a 和都是统计上显著的。 
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第5节 | 参数估计不显著的原因 


有很多原因使得参数估计是不显著的。 为丫在 某种程 
度 h 缩小这 个讨论 的范围.我们假设数据包含了概率柚样并 
II 变®都是 iK 确测璜的.这时 A 被发现是不显著的.其最明 
显的理由是 X 不是 y 的-个原 I 然而，假如我们怀疑这 
个简单的结论.以 卜列出 了一些为什么我们会发现统计不显 
著的原因.即使与 y 在事实上是相 关的： 

(1) 样本 t 不足； 

(2) 第二类 错误； 

(3) 设定错误： 

(4) X 的方差受到限制。 

接下来.我们按顺序评估这四个可能性（第五个可能性 
是高度多重共线性.我们将会在多元回归中 讨论） 5 

随着样本量的增大.一个给定的系数就越可能是显著 
的。例如， Riverside 例子中•如果只有五个观测.二元回归的 
h 值是不显著的(0.05)，但当》=32的时候则是显著的。这 
也表明 f 研究人员值得为此收集更多的观测.因为这样 更容 
易找出总体中 x 与 y 的关系.如果这种关系存在。 事实上 • 
在一个很大的样本屮.即便 a 的值是相当小的.我们也能发 
现其在统计上是显著的（对于很大的样本，如在有】000或 
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1 000以上观测的选举调查中.显著性有可能“太容易”发现 
了，因为很小的系数都可以是统计上显著的。在这种情况下 • 
分析人员可能倾向于主要依赖对系数重要性的实质性判断 U 

让我们假设样本量是固定的.并转到选定置信度的问 
题.因为这关系到第二类错误。原则上•我们可以把显著性 
检验的置信度设定为0与1之间的任意值。然而.在应用中 
多数社会科学家采用 0.05 或者 0.01 的水平。为了避免被批 
判为存在随意性或者偏颇，通常我们在开始分析之前从常规 
的标准中选择一个。例如，假定在开始研究之前我们选定了 
0.01 的置信水平.通过分析我们发现在 0.01 的水平下 6 是不 
显著的，但是我们发现在较低要求的 0.05 水平下是显著的。 
我们可能不愿意接受虚无假设.正如 0.01 水平检验所规定的 
那样.尤其是当理论和之前的研究都揭示 X 的确影响 Y 的 
时候。 从技术上来说.我们担心是否犯了第二类错 误-当 
虚无假设错误时，我们接受虚无假设。最后•我们可能更愿 
意接受 0.05 检验的结果（在这个特殊的例子里，根据理论的 
强度和之前的研究，可能我们应该在一开始的时候就把显著 
性检验设置在一个要求更低的 0.05 水平上）。 

除了第二类错误.也有可能是由于方程式错误地设置了 
x 与 y 之间的关系，从而导致/; 不显 著。可能这种关系是曲 
线，而非回归直线所假定的那样一条直线。第一，这条曲线 
应该在散点图上就可被发现。要建立这样一条曲线下的统计 
显著性，回归分析可能仍然适用，但是变量需要做一些正确的 
转换(我们会在本章的最后继续这样一个转换的例子)。 

最后.一个参数估计有可能是因为 x 的方差受到限制. 
从而导致其不显著。回到之前计算6的标准误 .V, 的公式. 
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I y)v(« — 2) 

.、、=〜’ — S ( 入-打 一 

我们可以看到随着 x 相对于其均值的离散程度下降.其式中 
的分母减少，进而6的标准误增加。在其他条件不变的情况 
下，一个大的标准误使得统计显著性更难实现，正如/值公 
式所展示的那样。这里的含义就是6可能存在的统计不显 
著仅仅是因为 X 的变化太小( X 的变化程度可以简单地通过 
计算它的标准差来进行检查）。在这种情况下.研究者在作 
出 X 与 Y 是否显著相关的肯定结论之前，可能会先尝试收 
集更多 X 的极端值。 
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第6节 I y 的预测误差 


在回归分析中，特定因变量的观察值与估计值之间的差 
异 y , — f 等于其预测误差。对于围绕着回归直线的所有预 
测误差.其变异的估计值可以表 示为： 

/ E ( v, - 

•W ■ ~~^2 

S , 被称为 V 估计值的标准误.即 Y 的实际值偏离其估计 
值的标 准差。 于是， Y 估计值的标准误在预测 Y 时提 供了- 
种平均误差。进一步来说.在绐定 X 值的时候，可以构造一 
个7的置信区间。对于一个任意大小的样本量，若/分布值 
接近2,那么我们就可以为 y 构造一个95%的置信 区间： 

(y 士 2 s ,) 

下面举例说明。在 Riverside 的研究中.我们预测具有 
10年受教育水平的人将会得到的收人水 平是： 

? = 5 078十 732( 10) = 12 398 

那么这个预测有多准确呢？对于 X =10.我们有如下95%置 
信区间 （ s , =2 855): 

12 398 ±2(2 855) =(12 398士5 710) 



*2# 二元回归 :假设与推断 


43 


根据这个置信区间，存在一个 0.9 S 的概率使得一个具有10 
年受教育水平的城市雇员获得从6 688美元到18 108美元之 
间的收人。这不是一个小的数值 K 间（极大值 IL 乎是极小值 
的二倍 ） f 可以推断对于给定的 X 值，我们得到的二元回归 
迕线并不能很准确地须测 y 值。 这样的结果也就不足为奇 
1\ 固想一下•根据 K =0.56,这个模型只解释了 Y 的一半 
变异. 要想大幅降低预测误差.我们的 f 需耍变得更大。 

最后值得一提的一点是.上述利用^得到的置信 K 间提 
供了 一个“平均的”置信区间，实际上•随着 X 的值远离其均 
侦.围绕 Y 值的实际置信 K 间倾向于变得更大。于是.对于 
越是极端的 X 值.上述的置信区间将会在某种程度！::比其实 
际值 越窄。 对于 构违吏 为精确的置信区间.已经冇现成的公 
式（参见 Kelejian &. Oates ， 1974 ： 111 116) c 
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第7节 | 残差分析 


从回归模型得到的预测误差 y ,- y ,. 也被称为残差。对 
这些残差的分析可以有助于我们察觉违背某些回归假设的 
情况。在对残差的视觉检查中.我们希望观察到一个类似 T 
图 2. la 那样的正常 模式； 即，数据点随机地散落在回归直线 
上下且位于一条等宽的稳定波段上。遗憾的是，我们还是会 
发现一些有问题的模式，其类似于从图 2.1 b 到图 2. Id 那样 
的其中一种 u 下面,我们将依次考虑这些有问题的模式。 
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图 2.1 —些可能的残差分布 


我们以最容易察觉的奇异点开始。在图 2.1 b 中，有两个 
观测具有非常大的残差，其位置远离回归直线。至少对这些 
观测而言•线性模型提供了非常差的拟合。通过观察一个具 
体的例子，我们能够详细地发掘奇异点所产生的后果。在 
Riverside 的研究中.假如我们在数据编码的时候粗心大意并 
分别记录了受访者29和30的收人为30 018美元和36 526 

美元（而不是正确的值-20 018美元和16 526美元）。被 

调整过并且包括了这些错误值的散点图看起来如图2.2。通 
过拟合一条回归直线.我们可见受访者29和30变成了奇异 



图 2.2 存在奇异值时所拟合的回归直线 
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点.其残差分别为10 112和15 599 0 此外.大致地检查残差 
我们可以发现，其分布围绕直线是不平衡的.其中有20个负 
的残差，但是 R 有12个正的残羞。估计的回 D 1 等式和统计 
1 如下： 

V =2 557 + 1 02 IX 

(包括奇异点的数据） 

(2 438) (191) 

R : -0.49 n =32 . s ,. —4 647 

其中括号里面的数字表示参数佔计的标准误 . V =决定系 
数，《 =样本] i ： ， . s , = T 估计值的标准误。 

奇异点的存在对我们的发现有什么作用？通过比较这 
些“奇异点数据”的估计与“原数据”的估汁，我们得到一个好 
想法。这里重复“原数据”的估计方程 如下： 

Y =5 078 + 732 X 

(原数据） 

(1 498) (118) 

R ~ =0.56 ;/ =32 5,, —2 855 

这里.各项定义等冋 f 上述对奇异点数据的估计。首先，注 
意当尝试容纳奇异点的时候奇异点”方程的斜率明显提 
高。然而.通过比较 a 的标准误.我们发现奇异点的斜率估 
汁在精度方面冇更低的 s 信度。一个下降了的^总结了奇 
异点模型通常会更差地拟合数据点这样的事实。通过比较 
V 估计值的标准误.由奇异点的存在而导致的预测困难被显 
苦地揭示出来.这显示了在奇异点方程中预测误差是原数据 
方程的 1.5 倍-。 

这些统计量表明奇异点的存在明显地减弱了我们对 Y 
的解释, .. 一般如何来调整奇异点的呢（我们这里指的是实际 
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的釺异点 • 而不足耶些能够被更为仔细的编码所修 ll •:的奇异 
点.如我们教学的例子所示的那样)?最少有四种可 能性: 

(1) 排除离群的观测， 

(2) 报告两个 方程， — 个包括奇异点，另外一个不 包括。 

(3) 变量转换。 

U ) 收集更多的数据。 

每 -种可能性均存在利弊 第-种 调整//法简单地通 
过剔除奇异点而忽略这个问题. K - 主要的缺陷是减少 r 样本 
量以及丟火 丫其 附加的信息。第二种调整方法保留 r 作第 
-个调整方法中叶能丢失的信息.然而.让问题变得很麻烦 
的是，我们必须考虑同-个模型在实证 h 的两个版本第三 
种调整方法仅仅使用一个方程，其保留 r 所有样本并 a 能够 
Lh 奇异点汜接近 h n it 线，然而.这样的结果可能会柄牲以 
原來的单位衡量时所可能具有的简单明了的解释第四种 
调整方法可能揭示奇异点并不足非典嘲的个案.而是实际上 
拟合到一个更为•般的模式 口]■能是非线性。 -- 个明显 

的限制是在电实验的社会科学研究中.我们不可能收集吏多 
的觇测 _没有哪-种调幣方法适合所冇情况.相反.在决定 
如何处理-个奇异点的 M 题时，我们必须考虑研究的问题和 
特定的散点图所 M 现的外观。 

图 2.1 c 到 2.1 e 展示 f 更为反常的残差图-奇异点可能 
暗示了曲线性.而图 2. U - 清晰地展示 r 这种分布 3 因为回归 
假设线性•所以在这种情况下我们的估汁就不是最佳的。显 
然.沿着 a ' 值的范围.每一单位 x 的变化不会引起 y 发生同 
样的反应（如/>)。非线性 n 了以有几种方法来处理这个问题 • 
例如，我们可以在方程中 I 人一个多项式，又或者是对其中 



应用回归导论 


一个变量进行对数转换。当然.选用哪一种方法取决于特定 
散点图的外形。 

图2 . 1 d 说明其违背了回归假设中的同方差性。我们观 
察到误差的方差不是恒定的.而是取决于 X 值，即.随着 X 
值增加.残差的变异也增加。这里异方差的情况有可能通过 
加权最小二乘法来修正,其方法涉及转换以恢复残差误差的 
恒 定性。 

图 2.1 e 展示了残差与 Y 的预测值之间的线性关系，即随 
着 Y 的增加.残差的符号由负变为正。这意味着存在排除了 
相关变量这种形式的设定错误，例如.那些具有正的残差的 
观测可能同时拥有某些共同特征，使得它们的 Y 值比预期值 
偏大。如果这个共同的特征能够被发现，那么这就说明方程 
还有另外一个自变量。 

既然有了上述三幅图（图 2. lc 、 图 2. Id 和图 2.1 e ), 也许 
我们应该分析 Riverside 研究中的残差(我们已经修正了产生 
奇异点的编码错误）。当然，这些残差可以简单地通过观察围 
绕回归直线的散点来进行检査，正如迄今为止我们所做的那 
样。然而.我们有时候想用一张特别的图来突出它们.图 2.3 
展示了这样的图.其中残差值标记在纵轴的预测值标记 
在横轴。这里的残差图没有表现出任何如图 2.1 c 到图 2. le 
那样的模式，残差既没有表现出曲线的形状，也没有形如异 
方差那样的“扇形”。此外.如果存在设定错误.这并不能通 
过对这些残差进行分析而发现。总而言之，图 2.3 所示的残 
差分布表现为无异常，由水平直线对半分割的宽 带状。 这个 
视觉印象也得到了数量上的确认，一个简单的符号计算揭示 
了一个围绕直线的明显的平衡分布 （17 个负的残差 .15 个正 
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的残差）。进一步说，所有的残差都是散落在一个围绕直线 
的条带上，其偏离直线或正或负的 Y 预测值的两个标准误。 

yU ) 预测值的_4 

两个标准误1 • 


+ 1.、， 

I 

b o- 

m 

浆 

一 h ， 


I ■ 、_ | _ | _ | _ | _ |— 

" 8 000 10 000 12 000 14 000 16 000 18 000 20 000 

预测收入值(仑) 


图 2.3 残差图 
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第8节 I 对采煤业死亡事故的安全执 
法的效果 :一个 二元回归案例 


现在是时候把我们前面学到的知识运用到现实世界的 
数据中了。一个当下的公共政策争议涉及联邦政府能押管 
制工作场所的 安全。 在1970年的《职业安全与健康法案》 
(Occupational Safety and Health Act ) 通过之前，联邦政府涉 
及的职业安全管理仅限于采煤业研究这种实施了 35年的 
干预行为有可能揭示其成功的前景，.我们研究的具体问题 
是: “联邦政府的安全执法到底有没有降低采煤业的死亡 
率?”1932年至1976年美国采矿业死亡率（单 位：死 亡人数/ 
每百万工作小时）的年度数据 "1 ■以从各期的“矿业年鉴”收 
集。另外，也可以从美国政府预算中获得矿业局 （Bureau of 
Mines ， 目前为矿业安全与健康管理局 [Mine Safety and 
Health AdminislrfUion ]) 的年度健康与安全预算.其用来支 
付联邦政府的执法行动.比如监管和救援。我们使用健康与 
安全预算- 转 换成不变美元 （ 1967 = 100) — 作为联邦执 
法活动的衡量标准。一个死亡率 Y 对安全预算 X 的二元回 
归 得到： 

Y =1.26 + 0.0000125 X 


(36.1) (—8.5) 
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R " =0.63 n =45 s r =0.19 

其中 Y = 年度采煤业死亡率（以每百万工作小时的死亡人数 
度量 ），X =年度联邦采煤业安全预算（以1 000为单位的不 
变美元衡量 .1967 = 100); 括号里的数值是 Z 值; R 2 = 决定系 
数; „=样 本量; = y 的预测值的标准误。 

安全支出与死亡率显著相关，从 A 所显示的/值就能够 
一目了然。进一步来说.根据斜率的估汁.每100万美元的 
预算增长与大约 0.01 的死亡率下降关联(这种下降的理解来 
源于我们注意到死亡率变量的范围在 0.4 到 1.7 之间）。而 
且 K 2 表明了安全预算的变化解释了超过一半的死亡率变 
化。总而 R 之.由财政支出所衡量的联邦安全执法活动看来 
是采煤业事故死亡率的一个重要影响因素。 

虽然这些估计看起来很好，但是也不应该轻易地被接 
受，因为我们还没有检查散点图。经检查.我们发现回归方 
程的线性假设其实是不正确的。相反， X 与 y 之间的关系看 
起来像一条曲线的形式，如图2.4。幸运的是，我们往往可以 



图 2.4 采煤业安全预算与采煤业死亡率的曲线关系 
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通过变量转换从而使得这种关系是线性的。这样一种曲线 
强烈地表明一个对数转换是最合适不过的。具体而言， x 的 
对数变换倾向于将分散变成直线形式，这样能使数据更符合 
线性的回归假设。除此之外，这种转换包含了从图 2.4 收集 
到的信息，即与上述斜率估计的解释相反，即每增加1个单 
位美元的支出所降低的死亡率越来越小(关于对数转换的精 
彩讨论，参见 Tufte ， 1974:108—131)。 

图 2.5 展示了新的散点图，其中 X 进行了“自然”对数转 
换 . InX 。 重新估计这个方程， 得到： 


Y 



采煤业安全预算(对数的.以千为单位的不变美元） 

图 2.5 采煤业安全预算（对 数的） 与采煤业死亡率的线性关系 

y =3.25 + 0.2471 nX 
(20.3) (- 13.6) 

R 2 =0.81 n =45 . v , =0.14 

方程式中各项定义同上。 

我们极大地改进了对死亡率的解释。正如尺 2 所揭示的 
那样，这个方程解释了超过2/3的 Y 的变异。除此之外，与 
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前一个方程相比,尺 2 的增量是可观的 (0.81 — 0.63=0.18), 这 
表明安全支出与死亡率之间的曲线性关系是真实存在的。 
把这种曲线性包含到我们的模型中极大地提高了模型的预 
测能力。在前一个方程中，在给定的预算值下预测 Y 时，其 
平均误差是 0. 19，在修正的模型中所估计的标准误下降到 
0.14。通过仔细检查原来的散点图并应用恰当的转换，我们 
明显地改善了看起来足以解释采煤业死亡率与联邦安全支 
出之间关系的回归方程。当然，尽管安全支出是死亡率的一 
个重要决定因素.但是这并不是唯一的，正如我们在下一章 
所发现的那样。 
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在多元回归中，我们可以在方程中加人不止一个自变 
量。这是很有用的，主要体现在两个方面。第一，它必然会 
为因变量提供一个更为全面的解释•因为很少有现象是由单 
一原因引起的。第二，一个特定自变量的影响效果会变得更 
加确信，因为这移除了受其他自变量扭曲的可能性。多元回 
归的过程其实就是二元回归的简单扩展，参数估计与解释都 
遵循同样的 原则。 同样，显著性检验和 K 2 也是类似的 。此 
外，二元回归中 BLUE 所要求的假设也可以移植到多元的情 
况。多元回归的技术很广泛.熟练掌握将使得研究人员可以 
分析几乎所有的定量数据。 
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第1节 I 一般方程 


在一般的多元回归方程中.因变量被视为不止一个自变 
量的线性函数， 

Y=a„ + /; | X | + b 2 Xj + /， 1 X 3 + …+ b k X k + e 

其中下标注明了不同的自变量。下面我们会用到基本的三 
变量方程，其表 示为： 

Y=a u +b,X i +b,X., J re 

上式表明了 y 是由&和； f , 再加上一个误差项所决定的。 

为了估计参数，我们再次运用最小二乘法，使得 SSE 最 
小化： 


SSE=2(y -令 ) 2 

对于这个三变量的模型，最小二乘方程表示为： 
y = a n b\X \ + b,X ； 

系数 ( u „， 6 2 )值的最小二乘组合比其他可能的组合拥有 
更小的预测误差。因而，最小二乘方程比其他线性方程能更 
好地拟合数据集合。但是•这将不能在图形上再用一条简单 
的用于拟合二维散点图的直线表示出来。反之.我们需要想 
象如何拟合一个平面到三维的散点。当然，这样一个平面的 
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位置由从微积分计算得来的 U ,,. 和卜 所界定。对于大部 
分人而言,想要将这种超过三变量方程的拟合过程形象化是 
不可能的。的确，一般情况下，对于々个自变量.这就需要想 
象把一个 A 维超平面调整到一个(々+1)维分散。 

为做进一步说明，让我们看一个来自 Riverside 例子的简 
单三变量模型。基于先前的研究，我们相信收人是与教育相 
关的。但我们也知道教育并不是影响收人的唯 一 因素。另 
外一个因素毫无疑问是资历 。在 大多数职业中.一个人的 I 
作时间越长.往往就能获得更多的收人.似乎这种情况在 
Riverside 市政府也如此。因此,我们对收人差异的解释也应 
该得到改进，假如我们把二元回归模型改为以下的多元回归 
模型： 


Y = U () -)*•/; I X I b -) X 2 ^ 

其中 ， Y = 收人(美元）， X ,= 教育（年） ， X 2 = 资历（年） = 
误差项。参数的最小二乘估计 如下： 


y =5 666 + 432 X , -f 281 X 
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第2节 | 解释参数估计 




截距的解释对我们而言并无难度可言，这仅仅是二元情 
况的扩展:《,,=当所有自变量为0时, y 的平均值。但是，斜 
率的估计则需要更多关注:~ =当其他自变量保持不变的时 
候，每一个单位 X ,的变化所导致 y 的平均变化。通过这种 
控制的方式，我们能够分离自身的影响，而不受其他自变 
量的影响。这样一个斜率被称为偏斜率或者偏回归 系数。 
在上述 Riverside 例子中，偏斜率心估计了资历每增加1年， 
导致平均年收人提高281美元,假设雇员的受教育年限保持 
不变。 换句话说，一名城市工人可预期这部分年收入的增 
长，与受教育程度提高这方面的个人努力是无关的。尽管如 
此.根据&可知，每获得额外1年的教育会增加一个雇员的 
收人，而不管其业已积累的资历年限.即除了资历所带来的 
收益，每增加1年的受教育水平使得年收人平均增加432 
美元。 

想要完全理解偏斜率的解释.我们必须理解多元回归如 
何使得其他自变量“保持恒定”。首先，这是统计性的控制而 
非实验性的控制。比如，在 Riverside 的例子中.如果我们实 
施实验性的控制，那么我们可能要把所有人的受教育水平控 
制在一个常量上，如10年，然后记录指定的受访者不同资历 
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年限对收人的影响。想要估计教育对收人的影响，我们可以 
实施一个类似的实验。假如这样的操作是可行的，那么我们 
就可以针对两个不同的实验运行两个二元回归模型.分别分 
析资历和 教育对 收人的影响。然而.这样的实验性控制是不 
可能的，我们必须依赖多元回归所提供的统计性控制。通过 
检查一个偏斜率的公式，我们就能展示统计性控制如何把一 
个自变量的影响与其他自变量区分开。 

首先我们限制在以下的三变量模型，其结果可一般 
化为： 

Y =a„ + A , X , + b,X z -he 

我们首先详细解释 ~ 估计。假 设〜古 0 .每一个自变量都 
可以 至少是部分地 被其他自变量所解释。比如.入, 
可以写成的线性 方程： 

X | = (• j + 2 乂 2 + “ 

假设 X ,不是被 x 2 完美预测的，存在一个误差项《。因此. 
观察 到的& 可以表达为预测的 X ,加 i : 误 差项： 

X , = X , +u 

其中， X , =o + f 2 X , 0 误差项 《 是 X , 的一部分，其不能被 
另一个自变量所解释. 

U = X , - X , 

因此，《表示了 X ,中与完全无关的那部分。 

通过同样的方式.我们也可以分离出 Y 中与线性无 


关的 部分: 
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Y =d] cl 2 X 2 ~\~v 
={cl , d 2 X 2 ) -\-v 
Y=Y ^rv 

误差项 ^ 是 Y 中不能被叉 2 所解释的部分， 

x ； =y-y 

V 表示了 Y 中与 x 2 完全无关的那部分。 

这两个误差项 一 〃和 P 由下式表示^的公式连接在 
—■起： 

2(«)(。） - X ,)( Y - Y ) 

b ' = s « 2 S(u ) 2 

用文字表述就是 A 是由 X ,和 y 中不受线性影响的那 
部分值所决定的。利用这种方法的影响就与 x 2 的影响 
分离。我们应该熟悉这个通常可以用到任意偏系数的公式. 
因为我们在二元的情况下看到了一个特殊的版本， 

X)(x-x)(y-y> 

b — 2(X-X) 2 

尽管多元回归的统计性控制不如实验性控制有说服力. 
其意义依然重大。把额外的变量小心地引入到方程中•能使 
我们的发现具有更大的置信度。例如， Riverside 例子中的二 
元回归模型表明了教育是收入的一个决定因素。然而.这个 
结论是值得怀疑的。一个表面上的二元关系可能是虚假 
的--另一个变量对教育和收人产生共同影响的产物。例 
如，反对者可能会争辩 ：那些 观察到的二元关系实际上是由 
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资历所导致的——那些有着更多年工作时间的人其实同时 
具有更高的受教育程度和更高的收入。一个含义是如果“资 
历”被控制了，教育有可能被发现对收入没有任何影响 。多 
元冋归允许我们检验这种虚假的假设。从上述的最小二乘 
估计我们发现，即便考虑了资历这个影响因素之后，教育仍 
然具有明显的影响。因此.只有通过真正引人第三个变量到 
方程中.我们才能排除一个虚假的假设•从而强化我们的观 
点 教育的确影响收人。 
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第3节 | 置信区间和显著性检验 


在这里，置信区间和显著性检验的步骤移植于二元的情 
况。假如我们想知道在 Riverside 例子的三变量方程中，偏斜 
率估计仏是否显著地不为0•那么我们就会再一次遇到虚无 
假设(在总体中不存在关系）以及备择假设(在总体中存在关 
系）。为了检验这些假设.下面我们构造一个围绕偏斜率估 
计的双尾95%置信 区间： 

(厶 1 士 , 》 -3i U.97S S 6) 

注意，这个公式与二元回归公式之间的唯一差别是自由度的 
个数，这里.公式少了一个自由度.我们只有一 3) 个自由 
度.而不是 (《_ 2) 个，因为我们增加了一个自变量。通常情 
况下，/变量的自由度为 (n — 々一 1) .其中 n =样本数，6 =自 
变量的个数。应用以下公式. 

(432 士 f 29 , W 75 i „) =432 士 2.045(144) =(432 士 294) 

在总体中偏斜率值位于138美元和726美元之间的概率是 
0.95。因为0不在这个范围内，所以我们拒绝虚无假设。我 
们可以说偏斜率估 计仏在 0.05 的水平下显著不为0。 

第二种对^进行显著性检验的方法是检查/值， 


bjs ,„ =432/144=3.01 
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我们观察到这个值大于的/分布值。即 
3.01 > 2.045 

因此，我们推断在 0.05 水平下,是统计上显著的。 

显著性检验的最有效方法是使用经验法则，其明确了任 
何系数在双尾 0.05 水平下的统计显著性均要求/值的绝对 
值大于2。下面是三个变量的 Riverside 方程，括号里是 Z 值： 

Y =5 666 + 432 X , -f 281 X , 

(4.22) (3.01) (3.04) 

记住经验法则后.对这些/值的检查就能使我们马上发现这 
个模型的所有参数估计 ( a „, 6,, 心） 在 0.05 的水平下都是 
显著的。 
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第4节丨 fl 2 



要估计一个多元回归的拟合度，我们使用 R L — 多元 
决定系数. 

p S ( P _ 回归（解释）平方和 

— 总平方和 

R 2 在一个多元回归模型里面表明了 y 的变异中被所有自变 
量所“解释”的比例。在以上三变量的 Riverside 模型中， 
R 2 =0.67, 说明了教育和资历一共解释了 67%的收人方差。 
相比 K 2 =0.56 的二元回归模型，这个多元回归模型明显对 
收人差异提供了一个更有力的解释。 

显而易见，一个高的 R 2 值是可喜的，因为这暗示了一个 
对研究现象更为完善的解释。虽然如此，如果把更大的 f 
视为唯一目标，那么我们就可能会简单地往方程中添加自变 
量。增加一个自变量并不会降低这几乎可以肯定至少 
在某种程度上会提高尺 2 的值。实际上，如果自变量不断地 
被添加进来，直到其数目等于 n — 1，这时 i ? 2 =1.0。这个“完 
美的”解释当然是没有意义的.充其量是数学上的必然一 
当自由度被耗尽的时候。总而言之.分析人员不能通过一味 
地添加变量来提高 K _, 而应该根据理论考虑来决定哪些变 
量应该被包括进去。 
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第5节 I 预测 y 值 


一个多元回归方程可以被用来做解释.也可以做预测。 
下面我们预测一个具有10年受教育水平和5年工作资历的 
Riverside 雇员的收人： 

V =5 666 + 432 X , +281 X ： 

=5 666 + 432(10) + 281(5) 


= 5 666 + 4 320+ 1 405 
Y =11 391 

为了得到这个预测准确度的概念.我们可以利用 Y 估计值的 
标准误\来构造一个置信 区间： 

(f ± 2. v ,) = f 士 2(2 529) = 11 391 ± 5 058 

这个置信区间说明了存在95%的概率使得一个有着10年受 
教育水平和5年工作资历的城市雇员获得从6 333美元到 
16 449美元不等的收人。尽管这个预测比二元回归更准确， 
但是还不够精确。 

在经验范围以外，这个模型的预测就变得没那么有用 
了。当然,我们可以添加任意的 x , 和；^的值来得到 y 的 
预测值。虽然如此，但是预测的价值随着1和&的数值 
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偏离数据中变量值的真实范围而降低。例如.预测一个具有 
两年受教育水平和35年工作资历的城市雇员的收人是有风 
险的，因为在数据集里面没有任何人登记了这样极端的数 
值。有可能在如此极端的数值下.线性关系就不复存在了， 
于是.任何基于我们的线性模型所做的预测都将会是相当离 
谱的。 
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第6节 | 交互效应的可能性 


到目前为止，我们假设效应是可加的，即， y 是部分地由 
x , 加上；所决定的，而不是 x , 乘以 x 2 。 这个可加性假设 
主导了应用回归分析并且常常是合理的。然而，这并不是一 
个必然的假设。让我们看一个例子。 

前面已经提到受访者的性别变量可以作为添加到 
Riverside 收人方程式的一个候选项。问题是，性别变量是应 
该被相加进去还是作为交互项添加进去呢？有人可能会认 
为性别应该与教育交互影响。通常情况下，当一个自变量的 
影响依赖于另外一个自变量而发挥作用时，那么我们就说存 
在一个交互效应。具体地，教育的影响可能依赖于雇员的性 
别.教 f 所产生的经济回报对男性而言会 更高。 

形式上.这种特定的交互模型表示如下（此时我们忽略 
资历这个变 量）： 

Y = ci {) - b\X \ ~\~ b 2 \ X . 2 ^ 

其中 y = 收人（美 元）； x , = 教育（年） ； x 2 =受【方者的性别 
(0 = 女性，1=男 性）； x , x 2 = x , 乘以 x 2 产生的交互项„该 
模型的最小二乘估 计是： 

Y =5 837 + 556 X , 十 202( H ) R 2 =0.65 
(4.20) (4.44) (2.70) 
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括号里面的数字是/值。这些结果说明了尽管受教育水平 
的提高对不同性别而言都增加了收入.但是男性的收人增量 
更大。当我们分别对男性和女性构建预测方程时.这种效应 
就变得清晰了。 

女性的预测 方程： 

Y = ab\X \ b-,X 

= “ 0 + 心 l X 1 

y =5 837 + 556 X 1 

男性的预测 方程： 

Y =u 0 4- I X , 4- X , (1) 

= u,, "h (b\ +/,:_)X I 

Y =5 837 + 758 X , 

我们观察到.对男性而言.教育变量的斜率变得更大。并且， 
这个斜率的差异是统计显著的（见卜的/ 值）。 

与此相对的是严格的可加模型.即 

Y = a 0 4- /; ] A r ! h 2 X 2 - e 
其中各个变量的定义同上。估计这个模型 得到： 

Y =4 995 + 633 X , +2 555 X , R l =0.65 
(3.64) (5.54) (2.60) 

上式中括号里面的数值是 / 值。这些估计说明教育和性别 
对收人有着显著并且独立的影响。 

数据集同时适用于交互模型和可加模型。两个模型的 
系数都是统计显著的，尺 2 也 一样。 到底哪一个模型是正确 
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的呢？答案必须基于理论的考虑和先前的研究，因为经验证 
据不能够让我们作出取舍。可加模型似乎更加符合收人决 
定的“歧视” ( discrimination ) 理论，即在其他条件等同的情况 
下，女性在社会上得到更少的收入.仅仅因为她们是女性。 
交互模型看起来更好地契合了收人决定的“个体失败” （ indi ¬ 
vidual failure >理论，即女性得到更少的收人，是因为她们不 
太能够把教育经历转化成她们的优势。基于之前的理论和 
研究.我偏好“歧视”理论.因此选择允许性别变量可加地进 
人到这个更大的收人方程。对于两个模型的解决方法可能 
来自一个同时允许性别的可加效应和交互效应的 方程： 

Y = a u + 61XI + b t X > + / j :i ( X1 Xj ) - e 

遗憾的是，这个模型的估计由于严重的多重共线性-个 

交互模型里常见的问题而变得不可靠。下面我们详细 
讲解多重共线性。 
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第7节 I 四变量 模型： 修正设定错误 


通过相加把性别变量合并到我们的 Riverside 收人差异 
模型. 得到： 


Y = a, t - I - /j , X I + b > X 2 + X ：； + e 

其中 V = 收入(美元）； X , =教育（年）=资历（年） ； X 3 = 
受访者的性别 (0 =女性，1 =男性）^ =误 差项。 理论上.这 
个四变量模型比先前的两变量模型更加完整。这里认为收 
人是一个由三个因素 教育、资历和性别-构成的线性 
可加方程。 

利用最小二乘法估计多重回归模型 得到： 

Y =5 526 + 385 X , +247 X 2 +2 140 X 3 
(4.44) (2.86) (2.84) (2.40) 

R - = 0.73 n =32 s , =2 344 

括号中的数值是 / 值 . K 2 = 多元决定系数^ =样本数，^ = Y 
估计的标准误。 

这些估计告诉我们大量关于在 Riverside 市政府中什么 
影响了收人这方面的信息。市政雇员的收人显著地受到教 
育年限、工作资历以及性别的影响（每一个对应的/值均大 
于2,说明了在 0.05 水平下是统计显著的）。这三个变量很 
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大程度上决定了总体的收人差异。事实上.几乎3/4的收人 
变异都可以被这些变量所解释（矿=0.73)。所造成的这些 
差异并不是无关紧要的。每增加1年的教育年限.对应着平 
均385美元的收人 增长： 每增加1年的工作资历则对应着平 
均247美元的收人 增长； 即便在同等的受教育水平和工作资 
历下，我们可预期男性雇员的收人比女性雇员高2 140美元。 
这些变量所累积的影响可以产生较大的收人差距。例如，一 
个具有大学教育程度和10年工作资历的男性可预期其收人 
是16 2%美元，相比之下，一个具有高中教育程度并且刚刚 
开始工作的女性.我们可预期其收人只有10146美元。 

添加除教育之外的资历、性别这些相关变量极大地减少 
了设定错误.有助于保证我们的估计是最优线性无偏的 
( BLU ) (想要回顾设定错误的含义.可以重温第2章回归假 
设的讨 论）. 尤其是对教育变量的系数估计极大地降低广 . 其 
在二元模型中等于732。在我们的四变量模型中，对应的估 
计=385,说明教育的实际影响只有原来二元方程的一半。 

对于一个确定的模型.我们很容易找出由于排除一个相 
关变量所导致的偏误方向。假设真实世界等同于这个模型： 

y = a " +6, X , + b 2 X . +K 正确模型) 

但是我们错误地估计了 

y = a r ,+/., X l ■(错误模型） 

其中， =(~ X 2 + H 。 从估计中排 除；^ .那么我们就犯了设 
定错误。假设 X ,与 x 2 是相关的 正如它们之间经常如 
此，斜率估计仏将会是有偏的。这个偏误是不可避免的.因 
为自变量 X ,与误差项 〆 是相关的，于是这里违反了一个对 
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回归而言，要得到令人满意的估计所必不可少的假设（我们 
可以看到# 0,因为 ru 关0,并且 I 是，的一个组成 
项）。在估计模型中的偏误方向是由以下条件决定的:心 
的符号以及相关系数~的符号。如 果卜和 r l2 具有相同的 
符号，那么~将会向正的方向偏离，否则 .6, 向负的方向 
偏离。 

在稍微复杂一点的 Riverside 例子中，偏误的方向恰好与 
I 二述规则保持一致。如前所述，在 Riverside 研究中的二元方 
程，只要确定了四变量模型的样式和估计 • h 的偏误就是正 
的。这个正向偏误遵循上述准则：（1)~(以及的符号是 
正的 〆 2) r 1: . (以及 r 1:< ) 的符号是正的，因此二元估计的必 
然是向上偏离的。由 I 所解释的 Y 的变化中，部分原本应 
该由兄：和 X 、解释，但是这两个变量不在方程 里而。 因此. 
这导致了由 X ,和 A % 所产生的对 Y 的影响.有•部分被错 
误地认为是由&所产生的。 

对偏误检查规则的制定喑示了我们可以预测 - 个设定 
错误的后果。例如，分析人员可以预见由于排除一个特定变 
M 而导致的偏误方向。使用更简单的模型.正如我们在这里 
所处理的那些，我们能够获得这种洞察力。然而，对于那些 
包括几个变量以及面对几个备选变量的模型.偏误的方向是 
不容易被预见的。在这种更为复杂的情况下.分析人员最好 
立即关注正确的模型设定。 
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第8节 | 多重共线性问题 


多元回归想要得到最优线性无偏估计.除了必须满足二 
元回归假设外，还需要一个额外的假设：不存在完全多重共 
线性。即.没有自变量与另一个自变量完全相关或者是其他 
自变量的线性组合。例如•在以下多元回归模型中 

V =u , + /j 1X1 -\- b 2 X ： + e 


当 


X) — i ' ( , + c'i X| 

时，完全共线性将会 出现。 因为此时 X ..是 X ,的完全线性 
函数（即=1)。当完全多重共线性存在时.要想得到最小 
二乘参数估计的唯一解是不可能的。任何计算偏回归系数 
的努力都是徒劳的，不管是计算机还是人工计算。因此.完 
全多重共线性是能够马 1. 被发现的。进一步来说.在实际操 
作中，这显然是不大可能发生的。但是.卨度多重共线性往 
往会困扰多元回归的使用者。 

在非实验的社会科学数据中.自变量几乎总是关联的 • 
即多重共线性。当这种情况变得极端的时候.严重的估计问 
题就会随之而来。通常的问题是参数估计变得不可靠。当 
前样本中偏斜率估计的范围可能与下一个样本中偏斜率估 
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汁的范围大不相同。因此，我们没有足够的信心来确保一个 
特定的斜率估计准确地反映了总体中 x 对 y 的影响。显 
然.由于这样的非精确性•在方程中这个偏斜率估计不能有 
效地与其他偏斜率佔计进行比较.以此来判断自变量的相对 
影响=最后•即便在总体中 a ' 与 v 确实是相关的.但是该估 
i 十的回归系数可能作常不稳定.以至于不能实现统 H •显 
著性。 

高度多重共线性之所以产生这些估计上的问题.是因为 
其给斜率估汁带来了大的方差，并且进一步造成大的标准 
误。回忆一下置信区间的公式(95%•双趔） 

(6 士 “ ,, '.7S-''/i ) 

我们注意到，一个大的标准误将会使得^ " r 能取值的范围 
变大，回顾/值的公式 


/厂 

我们观察到一个更大的使得估计更难实现统汁显著（如. 
更不容易大于 2 , 该值说明了在 0.05 水平下双尾检验是统计 
显著 的)。 

我们可以通过检查以下方差公式来观察大的方差是如 
M 随着高度多重共线性发生的 

b , 的方差=4 

其中 < 是多元回归模甩中误差项的方差是第，' 个自变量 
对模型中其余的自变量进行回归所得到的残差平方，于是 

v,=X,-X, 


如果这些其余的自变 ft 对于 X ,来说具有很高的预测度，那 
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么 x , 与的值就非常接近，因而 a 将会很小。因此上述 
方差公式中的分母就会很小，进而使得产生一个很大的方 
差估计。 

当然，当分析人员发现一个偏回归系数统计不显著时， 
他们不能简单地基于高度多重共线性来反驳这个 结果, ，在 
作出这样一个结论之前.高度多重共线性必须要被证明出 
来。下面我们首先看一看高度多重共线性的一些常见特征. 
这有助于研究人员预防此类问题。然后.我们继续讨论诊断 
的技术。高度多重共线性的一个相当明确的特征是方程中 
具有较大的 V ，但是系数在统计上不显著。另外一个相对 
较弱的特征是当自变量被添加到方程中或者从方程中被剔 
除时.回归系数的值会发生极大的变化。第三个仍然不太确 
定的特征涉及对系数范围的怀疑 。一 个系数或者是就其本 
身而言，或者是相对于方程中的另一个系数而言，有可能被 
认为是出乎意料地大（小）。这甚至是有可能太大（或太小） 
以至于不合常理而被拒绝。第四个需要警惕的是一个系数 
有着“错误的”符号。显然，最后一个特征很不显著，因为我 
们常常缺乏“正确的”符号所需的信息。 

以上特征有可能为警觉的分析者提供多重共线性问题 
的线索。然而，其自身并不能确定这样的问题确实存在。作 
为诊断.我们必须直接观察自变量之间的相关性。一个经常 
用到的经验是检查自变量之间的双变量相关.并寻找大约为 
0 . 8或者更大的系数。此时.如果没有发现这样的值.我们推 
断多重共线性这个问题不存在。尽管建议如此.但是这种方 
法不太令人满意.因为它没有考虑一个自变量与其他所有自 
变量之间的关系。例如.就算其中一个自变量几乎是其余自 
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变量的完全线性组合.仍然有可能不存在大的双变量相关。 
这种可能性指向了评估多重共线性的首选方法 :每一 个自变 
量都分别对其余自变量进行回归。当这些方程中出现任意 
R 2 接近 1.0 的时候，我们就说此时存在高度多重共线性。事 
实上，这些尺 2 中的最大值可作为多大程度上存在多重共线 
性的一个指标。 

让我们把学到的关于多重共线性的知识应用到四变量 
的 Riverside 模型中. 

Y =«„ + A | X [ + b 2 X 2 - f -6 3 X； t e 

其中 Y = 收人(美 元）； X , =教育(年） ； X 2 =资历（年 ）； 足,= 
性别 K =误差项。我们已经检查了这个模型的估计，发现这 
里不存在多重共线性问题的特征，即，系数都是显著的，而且 
符号和范围都是合理的。因此，我们可以预期上述多重共线 
性检验将会使得尺 i 远远小于1。分別使用每一个自变量对 
其他自变量进行回归，得 到： 

X , =7.02 + 0.42 X 2 +0.96 X ：, 尺 2 =0.49 

X , =-2.154-1.00 X , -)-1.68 X 3 R ' =0.49 
X 3 -0.066 + 0.022 X , +0.016 X , R 2 =0.14 

这些 KI . 表明了在 Riverside 样本里面.这些自变量是组间相 
关的，正如我们对这种类型的数据所能预见的那样。但是， 
我们观察到最大的多元决定系数是 R 2 =0.49, 远远小于1.0。 
我们可以判断在 Riverside 多元回归模型中，偏斜率估计不存 
在多重共线性的问题。 

结果不会总是这么好。当发现高度多重共线性时，我们 
该如何处理呢？遗憾的是.没有一个可能的解决方案是完全 




应用回归导论 


令人满意的。通常情况下.我们必须把一个糟糕的情况变得 
最好。标准的方法是通过扩大样本来增加我们的信息。 II •: 
如先前的章节所指出的那样.在其他条件等同的情况下，样 
本 量越大 .发现统计显著性的机会就越大。然而.现实情况 
是研究人员通常无法增加样本。此外.多重共线性可能非常 
严重.以至于一个大的"都不会让其有所改善。 

假定样本是固定的，我们需要使用其他策略。一种方法 
是合并那些高度组间相关的自变量为单个指标。如果这种 
方法在概念上是可行的，那么结果可以很好 ，.例 如.假设一 
个模型解释 f 政治参与（ V )是收人（ X ,)、种族 （) 、收听广 
播 ( X 3 ) 、看电视 ( X , ) 和阅读报刊 ( X .) 的函数 .一 方面.把高 
度组间相关的变量( X ,. X ,， X ,)合并到媒体接触这样一个 
指标中是明智的。另一方面，把收人和种族变量合并却是不 
合理的，即便它们是高度相关的。 

假设我们的变量是“苹果和橙子”.想要合并它们就是不 
切实际的。当面对高度共线性的时候.我们不能可靠地分离 
有关变量的影响.尽管这样.如果方程的用途被限制在预 
测.那么这个方程依然是有 用的。 即.对于所有给定的 X 值 
(如， X ,=2, X 2 =4, •, X t =3), 这个方程就可以被用来预 
测 y 值.而不是被用来解释单个 x 值的变化对 Y 的独立影 
响。通常这种预测策略意义不大.因为我们的 h 标往往是解 
释，从中我们讨论一个特定的 x 对 y 的影响。 

最后一种解决多重共线性的技术是丢弃这些不合适的 
变量，让我们研究一个例子。假设我们设定以下基本的多 
元回归 模型： 

y =«„+6, X , + b , X,+e 模型 l 
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然而.遗憾的是，我们发现 X ,与入 2 是高度相关的 （ r l2 = 
0.9)，以至于最小二乘估计是不能可靠地评估任何一个变量 
的效果。一个可选择的方案是从方程中剔除其中一个变量. 
如并简单估计以下模型： 

Y ^ a .+ I ^ X , 模型 I] 

当然，这种方法的一个重要问题是故意犯了设定错误。假如 
模型 I 是正确的解释模型，那么我们知道模型 II 中对的 
的估计将会是有偏的。能够使得这种技术变得稍微有所改 
善的改进方法是估计另外一个方程，即剔除另外一个不合适 
的变量（ X , ), 


Y ^ ai ,+ b 2 X 2 + e -' 模型 111 

如果我们连同模型 I 一起评估了模型 n 和模型 m . 那么就可 
以更加充分地估计设定错误所造成的损害。 
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第9节高度多重共线 性：一 个例子 


为了 3 f 加充分地理解高度多重共线性的影响.研究一个 
真实的案例是很有帮 助的。 首先.我们展示由社会学家存 
尼.杰马尼 （Gini Germani ，1973) 所报告的_-个研究发现.然 
后我们着眼于多重共线性 [|] 这个议题来检 杳这# 发现.，杰 
马尼想要解释在1946年阿根廷总统选举中胡安 • 贝隆(― 
Peron ) 得到的选票支持。他特別感兴趣的是估汁贝隆得到 
来自丁.人和国内移民的支持。要实 现这一 点.他用公式表示 
一个多元回归模型来得到以下 估汁： 

Y =0.52 十 0.18 X , -0. lo . V ； - o..wX . I 0.29 - X ： 

(0.43) (0.41) (0. 13) (2.54) (0.07) 

R =0.24 // =181 s, =0.11 

其中 y = 19 4 6 年该县总统投票中贝隆所得选票的百 分比； 
X ;=城市蓝领工人（表示为该县经济活动人口的 if 分 比）： 
X =农村蓝领工人（表示为该县经济活动人口的玎分 比）； 
X =城市白领工人（表示为该县经济活动人 U 的瓦分 比）； 
x t = 农村白领工人（表示为该县经济活动人口的百分 比）； 
X - =国内移民（在阿根廷出生的男性百分 比）； 括号里面的 
数字是斜率估汁的标准误广* ”号表明了一个系数在 0.05 水 




第 3 音多元回归 


平下双尾检验是统计显 著的; R : ’= 多元决定系数= 181个 
包含5 000人以上城市的县^ 估计值的标准误。 

这些结果表明.只有国内移民显著地影响了贝隆得到的 
选票支持.我们才能据此推断1：人不是胡安 • 贝隆当选的影 
响因素。当我们检查数据中的多重共线性时.这样一个结论 
就变得更加不确定丫。下面让我们分别用每一个自变量对 
M : 余自变量进行回 H ,以诊断多重共线性的程度。于是得到 
R , .按顺序排列 为：化 =0.99. =0.98. R \ =0.98. 

= 0.75. R \ =0.32。 

显然，极端的多重共线性是确实存在的。那么.如何修 
正这个问题呢？我们不能收集更多的数据观测，把一些变量 
合并成一个指标也是不可行的。这个方程的目的不在于预 
测（如果确实是的话.较低的将会阻止这种做法）。 F 是， 
我们仅剩的策略就是丢弃不合适的变量。检査这些尺1显示 
r 最大的值是尺 2 V . 即变量 x 2 几乎就是其余自变量 （ x lt 
A ( , X ,. A ') 的完全线性函数。假如我们从方程中移除 X 2 . 
并重新 估计: 

Y =0.42 + 0.28' X , -0.47' X :) -3.07' X , + 0.30' X , 
(0.07) (0.10) (1.41) (0.07) 

R J =0.21 it =181 s , =0. 11 

各项的定义同上。 

根据这些新的估计，所有这些变量都有统汁上显著的影 
响,.与之前的结论相反，工人确实对贝隆的当选有贡献。这 
些新的估汁有多可靠呢？ 一种检查方法是重新计算多重共 
线性的程度。分别将方程中的每一自变量对其余自变》进 
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行回！ JJ ， 得到 K: y =0.38. R x =0.30, =0.29. R x = 

0.20。 我们观察到，所有的尺.(.都远小于1，这表明多重共线 
性不再是一个问题。相比于包括了 X 2 这个不恰当的变量所 
产生的相反估计.改善了的参数估计看起来更加可信。但愿 
这个鲜明的例子能够清楚地说明高度多重共线性的危险性。 
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«3 


第10节 | 自变量的相对重要性 


我们有时候会想评估那些决定 y 的自变量的相对重要 
性一个明牯的步骤就是比较偏斜率的大小然而.这种努 
m 常被不同的度«：单位和变量方差 所附碍 。例如.假设下 
面的多元冋归方程预测了政治献金的数景是个体年龄和收 
人的 函数： 

V =8 + 2 A* I + o.oiox 

拽屮 y = 竞选捐献(美元),戈=年龄(年) . A '2= 收人(美元)。 

收人和年龄对竞选捐献的相对影响是很难评佔的，因为 
其屮的度量单位不具可比性，即美元对年数，一种解决方法 
是把变量标准化.重新估计，并评估新的系数(一些计算回 H 
的程序，如 SPSS. 除了非标准系数以外.还会自动提供标准 
系数)。任意变量的标准化都是通过将其数值范围转化为偏 
离均值多少个单位的标准差来实现的。对于以上变1 . 

… V-y X, -X, X, - X 

1 - •» | - * - — 

5 夕 Sx, " S X： 

其屮的“ * ”号表明这个变量是被标准化了的。 

用这些变量重新公式化模型 得到： 

y. u; +/? 2 x; 
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(注意.标准化使得截距为0)。这个标准化后的偏斜率通常 
以“/3”来标记，并且被称为一个 beta 权重，或者 beta 系数（不 
要把这个^与总体斜率的符号混淆）。 

这个 beta 权重通过自变量标准差与因变量标准差的比 
率来更正非标准化偏 系数： 

S \ 

— b ,— 

.、■+'_ 

在二元回归模型的特殊情况下 . beta 权重等同于两个变量之 
间的相关系数。即，假设模型 

Y = « - I - l)X " I - e 


那么 


3 =b — =r 

s, 

然而，这个等式对于多元回归模型则不成立（在一个多元回归 
模型中，仅仅当不存在多重共线性这种唯一情况时./3= r )。 

这个标准化的偏斜率估计，或者说 b e t a 权重.表明了当 
其他变量保持不变时， Y 在标准差上的平均变化是与 X 在标 
准差上发生1个单位的变化相关的。假设上述竞选捐献方 
程的 beta 权重 如下： 

Y • =0.15 X ； +0.45 X ； 

例如 ，决 =0.45 说明了当年龄保持不变时.收人发生1 
个标准差的变化将会引起竞选捐献发生平均 0.45 个标准差 
的变化。让我们更充分地考虑这个解释的含义。假设义 2 是 
正态分布的.那么对处于平均收人水平的人而言，收人增加 
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1个标准差的变化将会使其进入到一个高收人阶层——仅仅 
低于16%的当地居民。我们可以看到，对 X 的剧烈改变并 
不会导致 F 发生同等剧烈的反应，因为远小于1，尽管如 
此.竞选捐献的确增长了差不多半个标准差。与此相反，较 
大的年龄优势（整整一个标准差的增量）引起竞选捐献一个 
非常温和的增量(仅仅 0.15 个标准差）。我们推断收人的影 
响大于年龄的影响，二者均以标准差为单位衡量。确实，收 
人对竞选捐献的影响3倍于年龄对竞选捐献的影响 （0.45/ 
0.15 =3)。 

当分析人员对自变量的相对影响感兴趣时.标准化这种 
可以保证测量单位可比的能力使其具有吸引力。然而.如果 
想做样本之间的比较，就有一定的困难了。因为当对不同的 
样本估计同一个方程时，与非标准化的斜率值不同， beta 权 
重的值可以仅仅因为 X 的方差改变而改变。实际上.当其他 
条件一样时, X 的方差越大（越小 ）• beta 权重越大（越小 ）（ 想 
要明白这一点，再次参考 beta 权重的公式 

S V 

/ 3 , =/>,— 

A'v 

我们可以看到，随着分数中分子增大.尽的值也必然增加 h 
作为一个例子，假设上述政治献金模型是来自美国的一 
个样本.此时我们希望在另外一个西方民主国家.比如瑞典， 
检验这个模铟。来自瑞典选民样本的 beui 权 重为： 

Y • =0_18 X ,. +0.22 X ； 

式中各个变量的定义同上。通过比较/? 2 (美国）=0.45和弟 
(瑞典 ）= 0 . 2 2,我们尝试推断瑞典的收人效应大约是美国的 
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一半。然而.既然美国的收人标准差比瑞典的大，这个推断 
很可能是错的。更为分散的美国收人有可能掩盖了在这两 
个国家之间一个单位收人的变化实际上具有更为一致的效 
应这个事实，即译（美国）兰馬（瑞典）。欲检验这个可能性. 
我们必须检查假设为如下的非标准化偏 斜率： 

y =9+ 1.7 X , +0.012 X , 

当这畔非标准化的瑞典结果与非标准化的美国结果比较时. 
其表明了实际 h 收人对竞选捐献的效应在这两个国家是- • 
样的 （0.010 兰0.012)。通常•当 X 的方差从一个样本到另外 
一个样木不一致时.我们倾向于选择基 T 非标准化的偏斜韦 
进行跨样本比较. 
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第11节 | 回归模型拓 展：虚 拟变量 


回归分析鼓励使用那些大小可以用数值精度来衡量的 
变 *. 即定距变量。关于这种变量的一个典型例子是收人， 
个体可以按照收人的数量从最低到最高进行数字上的排序。 
于是•我们可以说约翰的收人为12 000美元，要高于比尔的 
6 000美元。实际 h •这刚好为 两倍。 当然.不是所有的变量 
都是在这样一个允许精确比较的水平被测量的。然而，通过 
使用虚拟变量，那些非定距变量也可以成为进人回归框架的 
候选项。 ， 

很多非定距变量可以被视为两分.如性别（男/女）、种族 
(黑/白）、婚姻状况(单身/已婚）。二分的自变量不会造成回 
归估计失去它们应有的特性。因为它们有两个类别，作为一 
个只有两个值的定距变量进人到方程中，它们设法“欺骗”最 
小二乘。研究“虚拟”变量如何运作是很有用的。假设我们 
提出在二元回归中某人的收人是由种族所预测的 

Y =a -\- bX 

其中收入，种族 (0 = 黑，1 =白）。如果 X =0,则 

八 

Y =a 

这是黑人的平均收人。如果 x = i , 则 
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Y =a b 


这是白人的平均收入。因此，斜率估计值6说明了白人和黑 
人在平均收人上的差异。6的/值一如既往地说明了斜率估 
计的 统汁显 著性。我们已经在实践中-一包括了性别作为 
自变量 ( 0 =女性 . 1 =男性）的四变量 Riverside 方程 一- 观察 
到这种虚拟变量。在考虑了教育和资历的影响以后，偏回归 
系数心 报告了男性和女性之间平均收人的差异。如前所 
述，这个差异在统计上和实质上都是显著的。 

显然，并非所有的非定距变量都是二分的。多类别的非 
定距变量一般有两种类型 ：定序 的和名义的。对于一个定序 
变量，观测值的排序可以依照数量大小.而非数值精度。态 
度的变量通常就是这种类型.如在选民调查中，受访者被要 
求按等级“不感兴趣”、“比较感兴趣”或者“很感兴趣”来评估 
他们自己的政治兴趣。我们可以说选择了“非常感兴趣”的 
受访者 A 比选择了“不感兴趣”的受汸者 B 对政治更感兴趣. 
但我们不能说数值上高出多少。于是.定序变量只是从“更 
低到更高”来承认一个排列等级。相比之下，一个名义变量 
的分类则不能这样来排序。宗教从属这个变量就是一个很 
好的例子。新教徒、天主教徒或者犹太教徒代表了个体属 
性，而对此排序将会是毫无意义的。 

不管是定序的还是名义的，有多个类别的非定距变量都 
可以通过虚拟变量的技术而被添加到多元回归模型中。下面 
我们来看一个例子。假如一个人捐献给竞选活动的美元是上 
述定序变量一一政治兴趣-的函数，那么，正确的模型将是 


Y =a„ +6 t X, + b 2 X 2 



第 3 章多元回归 


K ( ) 


其中） 7 =竞选捐献(美 元）； X ,=虚拟变量.如果是“比较感兴 
趣”则标 i 己为丨，否则为0 : .\： ; =虚拟变量.如果是“非常感兴 
趣”则标记为1，否则为0; ? =误差项。 

观察到只有两个虚拟变量代表了政治兴趣的二分变量。 
如果有三个虚拟变量，那么参数估计就不是唯一的了。即. 
第三个虚拟变量 X :,(如果是“不感兴趣”则标记为1,否则为 
0) 将会是其余两个变量 I 和的线性函数（考虑到任意 
受访者的&和；^的值是已知的，那么该受汸者在 X :的值 
就总是可以被预测的。如，若一个受访者在 X ,和 A % 的值 
都是0.那么其必然对政治“不感兴趣”，并且将被赋值为 
1)。这里描述了完全多重共线性的情况 ，在此 估计当然是不 
可继续的 t 为了避免掉进这个陷阱里，我们记住这个 原则： 
当一个非定距变量有 G 个类别时.我们使用 G _ 1个虚拟变 
量来表示这个变量。 

这里面临的一个问题是如何对这个被排除并回答了“不 
感兴趣”的群体估计其竞选捐献。他们的平均竞选捐献是通 
过方程的截距来估计的。即.对那些“不感兴趣”的人，预测 
方程为 

V —a„ b \ X \ + b < X ■> 

=a„ + /；| (0) + (0) 



因此，截距估汁了那些对政治“不感兴趣”的人的平均竞选 
捐献。 

对“不感兴趣”的类别所估计的竞选捐献《在这里作为 
一个基准.以比较其他类别对竞选捐献的效果。对那些类别 
是“比较感兴趣”的人.预测方程变为 
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Y —a,) b \ X\ + b 2 X2 

— a ,) +/ ， i(l) 十 (0) 

Y =a„ + b t 

因此.偏斜率的估汁 ~ 表明了那些“比较感兴趣”和"不感兴 
趣”的群体之间在平均竞选捐献上的差异，即 (《, + b ,)- a t 
==b 、。 

对于最后一个类别 “非常感兴趣”.预测方程变为 

y =« ， .+ 6,x, +b,x, 

=«0 + /，| ( 0 ) + by ( 1 ) 

y =u , + b 2 

于是.偏斜率的估计 ~ 表明了那些"非常感兴趣”和“不感兴 
趣”的群体之间在平均竞选捐献上的差异.即 (《,, + b 2 )- a ,= 
~。基于政治兴趣的提升将增加竞选捐献这个假设,我们可 
以预期乂 > 6,。 

一个数据案例将有助于我们更好地理解虚拟变 ft 的效 
用。假设在 Riverside 研究中.我们会想到从受雇于市政府所 
得的收人有可能部分地取决于雇员的政党派别（民主党人、 
共和党人或者尤党派人士）。在这种情况下.正确的模型设 
定将会 变成： 

Y =a„ b t X t 卞 /< 2 久 ？ + /):i -Y、 + /^ X I + 6 X '. + 〆 

其中收人; & = 教育; X 」 = 资历; a % = 性別； x , =虚拟 
变量.如果是无党派人土则标记为 1. 否则为0; x =虚拟变 
量，如果是共和党人则标记为 1. 否则为0; f =误差项。 

政党变量是一个三分类变量。因此.当使用 （； 一 1规则 
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时，我们需要生成3— 1 =2个虚拟变量。我们选择构建无党 
派人士 ( X ,)和共和党人( X .)，将民主党人留下做基准类别。 
对于基准类别的选择由分析人员决定。这里，我们选择民主 
党人作为比较的标准是因为我们猜想民主党人可能拥有最 
低的收人，而无党派人士和共和党人依次拥有更高的收人。 
最小二乘法得到下面的参数 估计： 


V =5 496 + 382X, + 250X L . f 2 134X, — 572X , + 386X 
(3.90) (2.74) (2.78) (2.33) (- 0.48) (0.41) 

R =0.73 n =32 =2 40?i 

匕式各变最定义同 L , 括号中的值为/值.尺=多元决定系 
数 .《= 样本量 y 估汁 值的标 准误. 

首先.我们注意到这个佔计结果句我们之前的模型设定 
相比几乎没有变化。此外•我们从/值看到一 M 教育、资历 
和性别的影响被控制以后，无党派人士的平均收人与民主党 
人的平均收人没有显著差别 （0.05 水平 ）（ 换句话说，并没 
有显著地影响截距）。同样，共和党人的平均收人也被发现 
与民主党人没有明显的差别 。与预 期相反.我们必须作出这 
样的结论:政党派别不会影响 Riverside 市政雇员的收人。我 
们原本的四变量模型仍然是首选的设定。 

通过使用虚拟变量技术，把非定距变量——政党 添 
加到多元回归方程中不会产生任何问题 3 有研究者可能会 
争辩说我们可以绕过虚拟变量的方法.而直接把这个变量添 
加到我们的回归方程中。理由是即便类别之间的距离并不 
完全相等，一个定序变量仍然可以是回归的一个候选项。这 
是一个有争议的观点。简言之.支持者的主要辩解是 ：在实 
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践中，这些结论经常等同于那些由更正确的技术产生的结果 
( 如虚拟变量回归或定序统计的应用）。第二个理由是相比 
于定序技术，多元回归分析如此强大，以至于错误的风险都 
是可以接受的。在这里，我们无法解决这个争论，然而我们 
可以通过把政党添加到 Riverside 方程中作为一个定序变量， 
从而提供一个实践的检验。 

乍一看，政党派别有可能像严格的名义变量。然而.政 
治科学家通常将其视为定序 变量。 我们可以说.相比于在所 
有类别中“最不支持共和党”的民主党人.一个无党派人士的 
立场"更倾向于共和党。因此，我们可以按他们距离共和党 
人的立场对类別进行排序。这个顺序以下面的代码标识•民 
主党人= 0,无党派人士 = 1，共和党人= 2,这些代码沿着“共 
和主义”的维度进行排序。对于我们添加到 Riverside 方程中 
的政党变量 . 上述代码计对每一个受汸者都赋加了数值。 
最小二乘估计得到以下 估计： 

y =5 314 +392X, + 243X : , +2 137X ：1 + 186X, 

(3.87) (2.85) (2.74) (2.36) (0.40) 

R' =0.73 n = 32 =2 380 

其中 Y = 收人 = 教育； = 资历； X ,= 性别 = 政党 
派别.各项赋值为0 二民 主党人 . 1 =无党派人士 .2 =共和党 
人：其余各项定义同上。 

在这里.原来变量的系数佔计并没有实质的变化。 同样. 
这里显示了政党派别对雇员的收人没有显著的影响 （/< 2)。 
因此.在这个特殊的个案中.含有一个定序变量的回归分析与 
更为恰当的虚拟变量回归分析相比.二者的结论是一致的。 
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第12节 I 采煤业死亡事故的决定 因素: 
一个多元回归案例 


让我们重温之前对采煤业死亡率的解释。现在很清楚 
的一点是，我们的二元模型并不完整。基于理论考量、先前 
的研究以及可获得的指标，我们用公式表示以下解释 模型： 

Y = a „ + b 2 X , + b { X,+e 

其中 y = 年度采煤业死亡率（以每百万工作小时的死亡人数 
度 量）， X ,=年度联邦采煤业安全预算的自然对数（以1 000 
为单位的不变美元衡量， 1 %7 = 100) ; A'_= 在地下作业的 C 
人 比例; X 虚拟变量表示总统所属的政党，在本年度如果 
总统是共和党人则记为0.如果是民主党人则记为1: ( > =误 
差项。 

我们已经表明了采煤业死亡率随着更为强有力的安全 
执法一以联邦安全预算 X ,来衡量 而下降，此外.我 
们认为当地下作业的矿工比例增加时，死亡率上升。最后. 
我们相信人主白宫的政党 X . 表现迥异-民主党比共和 
党更愿意采取措施以降低死亡率。下面让我们检验这些 
假设。 

最小二乘法得到以下估计(数据来源如同先前所 述）： 
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y = 1.23-0.189 X , +0.019 X , +0.046 X , 

(1.75) (- 6.48) (3.06) (0.84) 

R 2 =0.83 n =44 s c =0.13 

其中括号中的值为/值, R 2 = 多元决定系数，〃=从1932年 
到1975年的44个年度观测 （ A % 在1976年的数字缺失）， 
估计值的标准误。 

这些结果表明了联邦安全执法 X ,和地下弁采的程度 
X ,显著地影响了死亡率。然而，总统所属的政党看起来 
不会显著地影响死亡率（心的〖值看起来与2相差很大）。 
但是在拒绝前述总统所属政党的影响这个假设前.我们可能 
应该先检查多重共线性问题。毕竟•这有可能仅仅是多重共 
线性，使得心未能达到统计显著性。方程中每一个自变 M 
都分别对其余自 变量进 行回归.得到尺; V . =0.63, =0.45. 
K =0.46。当总统所属政党这个变量 X ,对 X ,和；^进行 
回归时，得到一个远远小于1的。此外，根据其他自变量 
的化’，它们显示了至少是相同程度的多重共线性，但是它们 
的回归系数依然还是统计显著的。总而言之，多重共线性看 
起来不可能是心缺乏统计显著性的原因。 

我们能够推断，在更高的置信度下，采煤业死亡率不会 
因入主白宫的政党轮替而改变。这促使我们修改模型设定 
并重新估计方程， 如下： 

Y =1.58-0.206 X , +0.017 X 2 
(2.80) (-9.58) (3.00) 

R 2 =0.83 n =44 s , =0.13 


式中各项定义 同上。 
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比较之前的二元回归模型.多元回归模型改进了我们关 
于采煤业死亡率的解释。较 大的记 表明了足足有83%的变 
异被模型所解释。此外，更完备的模型设定降低了安全支出变 
量 X ,在斜率估计上的偏差。在二元方程中，斜率= 一0.247, 
其夸大了安全支出增长在降低死亡率方面的作用。因为 
被排除了， I 解释了一部分本来应该由所解释的 Y '。 而 
在我们的多元回归方程中，包含进来的 X 2 使得安全支出的 
效应收缩到它的合理规模 ( 6, = —0.206)。 

那么，与安全预算这个变量相比.新合并进来的变 
匱-地下作业矿工的 a ■分比 在采煤业死亡率中是不 
是一个更为重要的决定因素呢？评估 beta 权重为这个问题 
提供了一个答案。标准化这些变量并重新估计方程. 得到： 

Y ' =-0.7 bX ； +0.24 X ； 

其中各项变量的定义同上，标准化后的变量以“ * ”号表示。 
上式的 beta 权重显示了安全预算在影响死亡率方面是一个 
比地下作业的矿工比例更为重要的 因素。 实际上，安全预算 
这个变量发生1个单位标准差的变化，其效应3倍于对应的 
地下作业矿工比例的变化。 
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第13节 I 下一步？ 


对这本书中材料的理解应该可以使得读者方便和广泛 
地使用回归分析。当然.在如此短的篇幅中，并非每一点都 
能解释得透彻。有些话题值得进一步学习.而非线性就是其 
中之一。尽管社会科学变量之问的关系常常是线性的，但是 
非线性的情况也不少见。我们洋细说明了违反线性假设的 
后果，并提供了一个例子演示如何通过对数转化使得非线性 
能够“伸直”。还有其他类似的线性转化可利用，其适合程度 
取决于特定曲线的形状。比较流行的方法是倒数 

y = a» +6 ,去 +P 


以及二阶多项式 


Y = a 0 + /; I X +6 Z X -' +p 

(有关上述以及其他转换方面好的讨论，参看 Kelejian &- 
Oates , 1974：92 102. 167-—175; Tufte , 1974:108 — 130)。 

另一个我们仅简要提及的话题是时间序列的使用。正 
如之前指出的那样，在时间序列数据的分析中•自相关是一 
个频繁出现的问题。例如， 


V ； =a + bX, +e, 
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其中•下标/已经被/所代替.以表示“时间” . y , =年度的联 
邦政府支出 .. x , =年度的总统预算请求 .〃， =误差项。当我 
们想象为包括了被忽略的解释变量.自相关就很可能会出 
现。例如.假设其中一个被忽略的变量是年度国民总收人 
( GNP ), 很显然， t 一年份的 GNP ( GNP :,) 与当前年份的 
(; NP ( GNP ,) 相关•因此弇 （). 这个误差过程-紧接 
着的前一时期误差 ( e ■，-, ) 和当前时期误差心, ） 是相关的 
描述了 •个-•阶自回归过程。这个过程很容易被发现（比 
如.用 Durljin-Watson 检验）并修正（如 Codirane -( )rcutt 
术）。 :: 其他的误差过程就更难诊断和纠正了 ( 时间序列的问 
题与机遇的介绍见 （> strom . 1978； 

在我们对回 IH 的说明中.我们已经有意识地强调文宁的 
解释.而不是数7推导。鉴丁•这是一本导论.这种侧重是合 
适的,.此时.认真的学生可能想要使用微枳分和矩阵来学 >J 
这些知识（可参考 Kmenta . 1971 ； Pindyck 2•- Ruhinfeld . 
1976)。 

自始至终.我们只列出了二元或者多元的单方程模型， 
气然•我们也可以用多方程模型。当我们认为因果关系不是 
申向而是双向的时候.这些在技术上被称为联合方程模型的 
模型就变得重要起来。例如.一个简单的回归模型假设 X 导 
致 r 但是反过来则不然.即 x - y „ 或许.虽然 x 导致 r 
v. 但是 y 也导致了 X ，即这是一个桕¥ .因果 关系， 
于是我们有两个 方程： 


V" = ti 十 bX + e 


X = a + hY + e 
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我们在此面对的诱惑是用学到的普通最小二乘法去估计每 
-个方程，遗憾的是，在相互因果关系这一事实下.普通最小 
二乘通常会产生有偏的参数估汁。因此，我们需要通过应用 
二阶最小二乘改进这个方法。相互因果关系和估汁的问题 
构成 r 因果模型的核心议题 （ Asher ， 1976对这一个话题提 
供了有用的处理方法）。可喜的是，精通回归分析将会加快 
学生对因果模型的掌握.并让他们熟悉其他定量 技术。 



注释 


[I ] 我们应该都很熟悉抽奖这个常见的简单随机样本的例子，其中听存的 
彩票都会被抽取，中奖的那一个是随机抽出的。在统计检验中.用于如 
显著性检验这样从样本到总体的推断•就是基于一个简单的随机样本。 
[2] 相关系数的估计 值是： 


其中 


以及 


=协方差,、 


^]( X , - X )(>； - Y ) 
n — 1 


= 标准差, 



= fe 准趋、 



[3] 有读荇 nj ■能想知道为什么那哗被忽略的解释变 M 不是简中.地被添加判 
方程式中，以此来同吋解决「1相关和设定错误的问题,.不幸的是，4这 
些变秘:足末知的或荇是不可测 W 的时候•这个简中.的解决方案就 M 不 
可能的。 

[1] 这个 例子完全是由我的同事彼得 • 斯诺 （ Pcum * Snow ) 发现和诊断的。 
他慷慨地允许我将 K 复制在这 tfL 

[5] 我们可能注意到在我们的采煤业死亡事故这个多元回归中 • Durbin 
Watson 检验不能揭示在误差过程中明显的自相又 
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译名对照表 


译名对照表 


alternative hypothesis 

备择假设 

Best Linear Unbiased EstimatesC BLUE) 

最优线性无偏估计 

beta coefficient 

beta 系数 

beta weight 

beta 权重 

biased 

有偏的 

central-limit theorem 

中心极限定理 

coefficient of determination 

决定系数 

confidence interval 

置信区间 

confidence level 

置信度 

covariance 

协方差 

cross-sectional variable 

横截面变 M 

depedent variable 

因变1: 

deviation 

偏差 

dichotomies 

二分 

dichotomous 

二分的 

dummy variable 

虚拟变量 

error 

误差 

error term 

误差项 

first-order autoregressive process 

一阶自回归过程 

goodness of fit 

拟合优度 

high multicollinearity 

高度多重共线性 

independent variable 

自变量 

instrumental variable estimation 

工具变量估计 

interval variable 

定距变量 

multioquation model 

多方程模塑 

nominal variable 

名义变量 

noninterval variable 

非定距变量 

normal dictribution 

正态分布 

null hypothesis 

虚无假设 

one-tailed test 

单尾检验 

ordinal variable 

定序变量 
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ordinary least squares 
outlier 

partial regression coefficient 

partial slope 

perfect correlation 

perfect multicollineanty 

population 

residual 

rohust 

sample 

simple random sample 
single-equation model 
skewness 
specification error 
standard deviation 
standard error 

Sum of the Squares of the Error(SSE) 
/ distribution 
t ratio 

rime-series variable 
total predicted error 
two-stage least squares 
t wo tailed test 
type I error 
typefl error 
variance 
variation 


普通最小二乘 
奇异值 
偏回归系数 
偏斜率 
完全相关 
完全多重共线性 
总体 

残差 ， 

稳健的 

样本 

简单随机样丰 
单方程模型 
偏态 

设定错误 
标准趋 
标准误 
误差平方和 
t 分布 
/值 

时间序列变織 
总和预测误差 
二阶最小二乘 
双尾检验 
第一类错误 
第二类错误 
方差 

变异/变化 
加权最小二乘法 


weighted least squares procedure 



